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本 书 是 一 本 使 用 Python 实现 数据 可 视 化 编程 的 实战 指南 ， 介 绍 了 
如 何 使 用 Python 最 流行 的 库 ， 通 过 60 余 种 方法 创建 美观 的 数据 可 视 化 
BR o 

全 书 共 8 章 ， 分 别 介绍 了 准备 工作 环境 、 了 解数 据 、 绘 制 并 定制 化 
图 表 、 学 习 更 多 图 表 和 定制 化 、 创 建 3D 可 视 化 图 表 、 用 图 像 和 地 图 给 
制图 表 、 使 用 正确 的 图 表 理 解数 据 以 及 更 多 的 matplotlib 知 识 。 

本 书 适合 那些 对 Python 编 程 有 一 定 基础 的 开 友 人 员 阅 读 ， 可 以 帮助 
读者 从 头 开 始 了 解数 据 、 数 据 格式 、 数 据 可 视 化 ， 并 学 会 使 用 Python 可 
视 化 数据 。 
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图 形 可 视 化 是 展示 数据 的 一 个 非常 好 的 手段 ， 好 的 图 表 自 己 会 说 
话 。 考 庸 多 言 ， 在 Python 的 世界 里 ，matplotlib 是 最 著名 的 绘图 库 ， 它 支 
持 几 乎 所 有 2D 绘 图 和 部 分 3D 绘 图 ， 被 广泛 地 应 用 在 科学 计算 和 数据 可 
视 化 领域 。 但 是 介绍 matplotlib 的 中 文书 籍 很 少 ， 大 部 分 书籍 只 是 在 部 分 
章节 中 提 到 了 matplotlib 的 基本 用 法 ， 因 此 在 内 容 和 深度 上 都 力 有 不 逮 。 
本 书 则 是 一 本 专门 介绍 matplotlib 的 译 著 。 

matplotlib 是 一 个 开源 项 目 ， 由 John Hunter 发 起 。 关 于 matplotlib 
的 由 来 ， 有 一 个 小 故事 。John Hunter 和 他 研究 壮 病 症 的 同事 借助 一 个 专 
有 软件 做 脑 皮 层 电 图 分 析 ， 但 是 他 所 在 的 实验 室 只 有 一 份 该 电 图 分 析 软 
件 的 许可 。 他 和 许多 一 起 工作 的 同事 不 得 不 轮流 使 用 该 软件 的 硬件 加 密 
狗 。 于 是 ，John Hunter 便 有 了 开发 一 个 工具 来 蔡 代 当前 所 使 用 的 软件 的 
想法 。 当 时 MATLAB 被 广泛 应 用 在 生物 医学 界 中 ，John Hunter 等 最 初 是 
想 开 发 一 个 基于 MATLAB 的 版 本 ， 但 是 由 于 MATLAB 的 一 些 限 制 和 不 
足 ， 加 上 他 本 号 对 Python 非常 熟悉 ， 于 是 承 有 了 matplotlib 的 诞生 。 

所 以 ， 无 论 从 名 字 上 ， 还 是 从 matplotlib 提 供 的 函数 名 称 、 参 数 及 使 
用 方法 都 与 MATLAB 非 常 相似 。 对 于 一 个 MATLAB 开 发 人 员 ， 使 用 起 
来 会 相当 得 心 应 手 。 即 使 对 不 熟悉 MATLAB 的 开发 人 员 【《 辟 如 我 ) ， 
对 其 函数 的 使 用 也 能 够 一 目 了 然 ， 而 且 matplotlib 有 着 非 常 丰富 的 文档 和 
实例 ， 加 上 本 书 的 介绍 ， 学 习 起 来 将 会 非常 轻松 。 

matplotlib 命令 提供 了 交互 绘图 的 方式 ， 在 Python 的 交互 shell 中 ， 
我 们 可 以 执行 matplotlib 命 令 来 实时 地 绘制 图 形 并 对 其 进行 修改 。 生 成 的 

















图 像 可 以 保存 成 许多 格式 ， 这 取决 于 其 所 使 用 的 后 端 ， 但 绝 大 多 数 后 端 
都 支持 如 png、pdf、ps、eps 和 svg 等 格式 。 

在 之 前 的 项 目 中 ， 我 使 用 Python 的 Locust 工 具 进 行 性 能 测试 ， 该 工 
有 具 非 常 出 色 ， 然 而 在 对 获取 到 的 性 能 数据 的 分 析 上 ， 没 有 提供 太 多 的 功 
能 。 于 是 我 决定 使 用 matplotlib 进行 性 能 数据 的 分 析 和 可 视 化 。 从 绘制 
最 简单 的 柱状 图 、 线 形 图 ， 到 引入 散 点 图 、 直 方 图 ， 我 渐渐 对 matplotlib 
有 了 进一步 的 了 解 ， 也 对 它 提供 了 如 此 强大 的 功能 却 又 不 失 易 用 性 而 着 

虽然 本 书 是 一 本 cookbook， 然 而 它 并 不 仅仅 局 限 在 讲解 如 何 绘制 各 
种 图 形 上 ， 更 重要 的 是 ， 本 书 让 我 们 了 解 了 如 何 用 正确 的 图 形 把 数据 可 
视 化 出 来 ， 也 就 是 “do the right thing in the right way”。 在 翻译 本 书 的 过 
程 中 ， 我 意识 到 ， 如 果 我 当时 手头 有 这 人 么 一 本 书 ， 将 会 少 走 不 少 弯 路 。 
本 书包 括 了 非常 多 的 图 形 介绍 以 及 丰富 的 示例 ， 我 相信 ， 读 完 本 书 以 
后 ， 读 者 将 能 应 对 各 种 常见 的 数据 可 视 化 问题 。 

在 这 里 ， 我 要 特别 感谢 一 下 我 的 妻子 董 秋 影 ， 在 精神 和 专业 知识 上 
她 都 给 予 了 我 莫大 的 帮助 ， 没 有 她 就 没有 这 本 译 稿 的 完成 。 她 从 事 医 疗 
图 像 算 法 工作 ， 对 各 种 图 形 和 算法 以 及 MATLAB 都 有 很 深 的 了 解 ， 本 
书 的 每 一 章 都 经 过 了 她 认真 的 审阅 校对 。 此 外 ， 感 谢 绢 明 伟 先生 完成 了 
第 1 章 的 初稿 翻译 工作 。 最 后 ， 感 谢 人 民 邮 电 出 版 社 陈 引 康 老师 专业 细 
心地 审核 ， 和 陈 老师 合作 很 轻松 、 很 开心 。 

由 于 译 者 水 平 有 限 ， 错 误 和 失误 在 所 难免 ， 如 有 任何 意见 和 建议 ， 
请 不 音 指正 ， 我 将 感激 不 尽 。 我 的 邮箱 : zhuangingshan(2163.com. 
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2014 年 12 月 于 北京 

















作 者 H] AN 


Igor Milovanovik 是 一 个 在 Linux 系 统 和 软件 工程 领域 有 深厚 背景 的 
经 验 丰 定 的 开发 人 员 。 具 备 创建 可 扩展 数据 驱动 分 布 式 定 软件 系统 的 技 
IK 

他 是 一 个 高 性 能 系统 设计 的 布道 者 ， 对 软件 架构 和 开发 方法 论 有 着 
浓厚 的 兴趣 。 他 一 直 坚 持 倡 导 促 进 高 质量 软件 的 方法 论 ， 如 测试 驱动 开 
发 、 一 键 部 署 和 持续 集成 。 

他 也 拥有 坚实 的 产品 开发 知识 。 拥 有 领域 经 验 知识 ， 并 参加 过 官方 
培训 ， 他 能 够 在 业务 和 开发 人 员 之 间 很 好 地 传递 业务 知识 和 业务 流程 。 

非常 感谢 我 的 未 婚 妻 ， 她 允许 我 把 大 量 的 时 间 花 费 在 工作 上 而 没有 
陪伴 她 ， 并 在 我 无 休止 地 谈论 本 书 时 甘愿 做 一 个 热心 的 听众 。 我 也 想 感 
谢 我 的 哥哥 ， 他 一 直 是 我 坚强 的 后 盾 。 感 谢 我 的 父母 ， 给 予 我 名 种 发 展 
自己 的 空间 ， 让 我 成 为 今天 的 自己 。 

如 末 没 有 开发 Python、matplotlib 和 所 有 本 书 中 使 用 的 库 的 开源 社区 
的 巨大 能 量 ， 我 不 可 能 写 出 这 本 书 。 我 深 深 地 感谢 所 有 这 些 项 目 背 后 的 
人 们 。 感 谢 你 们 ! 




















Tarek Amr 从 东安 格 里 亚 大 学 获得 了 数据 挖掘 和 信息 检索 专业 的 研 
究 生 学 位 。 他 在 软件 开发 领域 有 近 10 年 的 经 验 。 自 从 2007 年 开始 ， 他 
一 直 在 Global Voices Online (GVO) 义 务工 作 ， 目前 他 是 埃及 Open 
Knowledge Foundation (OKFN) 的 大 使 。 他 热衷 于 开放 数据 、Government 
2.0、 数 据 可 视 化 、 数 据 新 闻 、 机 器 学 习 和 上 自然 语言 处 理 。 

Tarek 的 Twitter 账号 是 @gr33ndata， 主 页 是 
http://tarekamr.appspot.com/. 

Jayesh K. Guptas¢ Matlab Toolbox for BiclusteringAnalysis (MTBA) 
的 首席 开发 人 员 。 他 目前 是 一 名 IT Kanpur 的 在 读 研究 生 和 研究 员 。 他 
的 兴趣 是 模式 识别 。 他 对 基础 科学 也 有 浓厚 的 兴趣 ， 认 为 它们 是 自然 界 
中 的 模式 分 析 工 具 。 来 到 IIT 之 后 ， 他 看 到 这 种 分 析 是 如 何 借助 机 器 学 
习 算 法 广泛 应 用 在 各 种 不 同 的 应 用 程序 中 的 。 他 相信 通过 机 器 智能 来 强 
化 人 类 的 想法 是 增进 人 类 知识 的 最 好 方式 之 一 。 他 是 一 个 长 期 的 技术 爱 
好 者 和 上 自由 软件 的 布道 者 。 他 的 网 名 是 rejuvyesh。 他 也 是 一 名 狂热 的 读 
者 ， 从 Goodreads 可 以 获得 他 读 过 的 书籍 的 信息 。 从 Bitbucket 和 GitHub 
可 以 找到 他 的 项 目 。 所 有 的 链接 都 在 http:/home.iitk.ac.in/ 一 jayeshkg/ 

上 ， 也 可 以 通过 a2z.jayesh@gmail.com 联 系 他 。 

Kostiantyn Kucher 出 生 在 乌克兰 歼 德 院 。2012 年 他 在 敖 德 陡 国立 
理工 大 学 获得 了 计算 机 科学 专业 的 人 硕士 学 位 。 他 使 用 Python、Matplotlib 
和 PIL 从 事 机 器 学 习 和 图 像 识 别 的 工作 。 

目前 ，Kostiantyn 是 一 名 计算 机 科学 专业 信息 可 视 化 方 回 的 博士 研 











究 生 。 他 在 Andreas ”Kerren 博 寻 的 指导 下 ， 在 瑞典 林 奈 大 学 计算 机 科学 
系 的 ISOVIS 小 组 进行 研究 。 

Kenneth Emeka Odoh 从 事 高 级 的 数据 可 视 化 技术 研究 工作 。 他 的 
研究 兴趣 是 通过 可 视 的 线索 指导 用 户 得 出 研究 结果 的 探索 性 研究 。 

Kenneth 精通 Python 编程 。2012 年 他 曾 在 芬兰 的 Pycon 大 会 做 演 
讲 ， 主 题 是 Django 中 的 数据 可 视 化 。 

他 目前 是 加 拿 大 里 页 纳 大 学 的 一 名 研究 员 ， 通 晓 多 种 编程 语言 ， 有 
C、C++、Python 和 Java 的 应 用 开发 经 验 。 

编写 代码 之 余 ，Kenneth 还 参加 了 坎 皮 恩 学 院 圣 歌 合唱 团 。 








最 好 的 数据 是 我 们 能 看 到 并 理解 的 数据 。 作 为 一 个 开发 人 员 ， 我 们 
想 创造 并 构建 出 最 全 面 且 容易 理解 的 可 视 化 图 形 。 然 而 这 并 非 总 是 很 简 
单 ， 我 们 需要 找 出 数据 ， 读 取 它 、 清 理 它 、 押 摩 它 ， 然 后 使 用 恰当 的 工 
有 具 将 其 可 视 化 。 本 书 通过 简单 〈 和 不 那么 简单 ) 直接 的 方法 解释 了 如 何 
读 取 、 清 理 和 可 视 化 数据 的 流程 。 

本 书 对 怎样 读 取 本 地 数据 、 远 程 数 据 、CSV、JSON 以 及 关系 型 数 
据 库 中 的 数据 ， 都 进行 了 讲解 。 

通过 matplotlib， 我 们 能 用 一 行 简单 的 Python 代码 绘制 出 一 些 简单 的 
图 表 ， 但 是 进行 更 高 级 的 绘图 还 需要 除 Python 之 外 的 其 他 知识 。 我 们 
需要 理解 信息 理论 和 人 类 的 审美 学 来 生成 最 吸引 人 的 可 视 化 效果 。 

本 书 讲解 在 Python 中 使 用 matplotlib 绘 图 的 一 些 练习 、 使 用 情况 ， 以 
及 对 于 不 同 图 表 特 性 应 该 使 用 的 方法 的 一 些 最 佳 实践 。 

本 书 的 写作 及 代码 开发 均 基于 Ubuntu 12.03， 使 用 了 Python 2.7. 
IPython 0.13.2. virtualenv 1.9.1. matplotlib 1.2.1、NumPy 1.7.1 和 SciPy 
0.11.0. 

本 书 涵盖 内 容 

第 1 章 ， 准 备 工作 环境 ， 包 括 一 些 安装 方法 ， 以 及 如 何在 你 的 平台 
上 安装 所 需 的 Python 包 和 库 的 一 些 建议 。 

第 2 草 ， 了 解数 据 ， 介 绍 通 用 的 数据 格式 ， 以 及 如 何 读 写 ， 如 
CSV、JSON、XSL 或 者 关系 型 数据 库 。 

第 3 章 ， 绘 制图 表 及 定制 化 ， 着 手绘 制 简单 的 图 表 并 介绍 图 表 的 定 














制 化 。 

第 4 章 ， 学 习 更 多 图 表 和 定制 化 ， 继 续 上 一 和 章 内 容 ， 介 绍 更 多 的 高 
级 表格 和 网 格 定制 化 。 

第 5 音 ，3D 可 视 化 ， 介 绍 三 维 数据 的 可 视 化 ， 如 3D 柱 状 图 、3D 直 方 
图 ， 以 及 matplotlib 动 画 。 

第 6 音 ， 用 图 像 和 地 图 绘制 图 表 ， 涵 盖 图 像 处 理 、 在 地 图 上 投射 数 
据 ， 以 及 创建 CAPTCHA 测 试图 像 。 

第 7 音 ， 使 用 正确 的 图 表 理 解数 据 ， 涵 盖 一 些 更 高 级 绘图 技术 的 讲 
解 和 方法 ， 如 频谱 图 和 相关 性 。 

第 8 章 ， 更 多 的 matplotlib 知 识 ， 介 绍 一 些 图 表 如 甘 特 图 、 箱 线 图 ， 
并 且 介 绍 如 何在 matplotlib 中 使 用 LaTeX 泻 染 文 本 。 

准备 工作 

学 习 本 书 时 ， 需 要 你 在 自己 的 操作 系统 上 安装 Python2.7.3 或 最 新 
版 本 。 本 书 使 用 Ubuntu12.03 系 统 上 的 默认 Python 版 本 (2.7.3) o 

本 书 中 用 到 的 另 一 个 软件 包 是 IPython， 它 是 一 个 交互 式 的 Python 
环境 ， 功 能 非常 强大 、 灵 活 。 可 以 通过 基于 Linux 平台 的 包 管 理工 具 或 
者 用 于 Windows 和 Mac OS 系统 的 预 安装 文件 安装 。 

一 般 来 说 ， 如 果 你 对 于 Python 安装 和 相关 软件 安装 不 熟悉 ， 强 烈 推 
荐 你 使 用 预 打包 的 Python 科学 发 行 包 如 Anaconda, Enthought Python 发 
行 包 或 者 Python (X,Y) 进行 安装 。 

其 他 所 需 的 软件 主要 包括 Python 包 ， 可 全 部 通过 Python 安装 管理 器 
pip 进 行 安 装 。pip 本 身 通 过 Python 的 easy_install 安 装 工具 安装 。 

谁 适 合 阅 读本 书 

本 书 是 为 那些 通常 已 经 了 解 Python 编 程 的 开发 人 员 编 写 的 。 如 果 你 
上 听 说 过 数据 可 视 化 但 又 不 知道 从 何 入 手 ， 本 书 会 从 头 开 始 指导 你 了 解数 
据 、 数 据 格式 、 数 据 可 视 化 ， 以 及 如 何 使 用 Python 可 视 化 数据 。 

你 需要 知道 一 些 一 般 的 编程 概念 ， 如 果 你 有 编程 经验 ， 会 非常 有 




















用 。 然 而 ， 本 书 中 的 代码 几乎 是 逐 行 讲解 的 。 阅 读本 书 不 需要 任何 数学 
知识 ， 书 中 介绍 的 每 一 个 概念 都 有 详细 的 讲解 ， 并 且 提 供 了 一 些 参考 资 
料 以 供 进一步 的 兴趣 阅读 。 

约定 

在 本 书 中 ， 不 同 的 信息 由 一 些 不 同 风 格 的 文字 来 区 分 。 这 里 有 一 些 
文字 风格 的 例子 ， 以 及 它们 的 含义 解释 。 

书 中 的 代码 文字 显示 如 下 : “我们 把 小 演示 程序 封装 在 DemoPIL 类 
中 ， 这 样 可 以 共享 示例 函数 run_fixed_filters_demo 的 代码 ， 并 能 很 容易 
地 对 其 进行 扩展 。” 

代码 块 设置 如 下 : 


def _load_image(self, imfile): 





self.im = mplimage.imread(imfile) 
BRAT TO RERO TE SER PR REE TY, RATRI 
将 设置 为 粗 体 : 
# tidy up tick labels size 
all_axes = plt.gcf().axes 
for ax in all_axes: 
for ticklabel in ax.get_xticklabels() + ax.get_yticklabels(): 
ticklabel.set_fontsize(10) 
所 有 的 命令 行 输入 或 者 输出 的 写法 如 下 。 
$sudo python setup.py install 
新 术语 和 关键 词 将 显示 为 粗 体 。 例 如 ， 在 屏幕 上 、 沫 单 或 对 话 框 中 
的 文字 将 会 显示 为 :“ 然 后 我 们 为 火柴 杆 图 设置 一 个 标签 和 基线 位 置 ， 
默认 值 为 0。” 
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警告 或 者 重要 的 说 明 出 现在 这 样 的 一 个 文本 框 中 。 


Q 

提示 和 技巧 像 这 样 显示 。 

读者 反馈 

欢迎 读者 同 我 们 反馈 意见 。 请 让 我 们 知道 你 对 本 书 的 看 法 一 一 哪些 
是 你 喜欢 或 者 不 喜欢 的 。 读 者 反馈 对 我 们 非常 重要 ， 可 以 帮 我 们 完善 一 
些 你 非常 关心 的 内 容 。 

如 果 给 我 们 发 送 一 般 的 反馈 ， 可 以 简单 地 发 电子 邮件 到 
feedbackG@packtpub.com， 并 请 在 消息 标题 中 提 及 书 名 。 

如 果 你 对 某 个 话题 有 经 验 ， 并 且 有 兴趣 写作 或 者 想 为 一 本 书 做 页 
献 ， 请 参考 我 们 的 作者 指南 www.packtpub.com/authors。 

支持 

既然 你 已 经 是 Packt 书 籍 的 读者 ， 我 们 有 许多 辅助 材料 可 以 帮助 你 
从 本 书 中 得 到 最 大 的 收获 。 

下 载 示例 代码 

可 以 在 http://www.packtpub.com 网 站 上 你 的 账户 中 下 载 你 所 购买 的 
所 有 图 书 的 示例 代码 文件 。 如 果 你 在 其 他 地 方 购买 本 书 ， 可 以 访问 
http:/www.packtpub.com/support 页 面 进行 登记 ， 文 件 会 通过 邮件 直接 发 
送 给 你 。 

勘误 

尽管 我 们 已 经 竭尽 全 力 确 保本 书 内 容 的 准确 ， 但 是 错误 在 所 难免 。 
如 果 你 在 书 中 发 现 了 错误 一 一 可 能 是 文本 或 者 代码 中 的 错误 一 一 如 果 你 
能 把 它 报告 给 我 们 ， 我 们 将 万 分 感谢 。 如 此 ， 这 样 可 以 减轻 其 他 读者 的 
痛 苗 ， 并 且 可 以 帮 我 们 改进 该 书 的 后 续 版 本 。 如 果 你 找到 任何 错误 ， 请 
访问 http://www.packtpub.com/submit-errata 并 报告 给 我 们 ， 选 择 你 的 图 














书 ， 点 击 errata submission form 链接 ， 并 加 入 你 勘误 的 详细 内 容 。 一 旦 
你 的 勘误 通过 验证 ， 你 的 提交 将 被 接受 ， 勘 误 将 会 上 传 到 我 们 的 网 站 ， 
或 者 添加 到 位 于 该 标题 的 勘误 部 分 的 已 有 勘误 列表 中 。 可 以 在 
http://www.packtpub.com/support 上 选择 你 的 标题 来 查看 所 有 现 有 的 勘误 
2: E 
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著作 权 侵 害 

互联 网 上 的 版 权 侵害 是 一 个 跨越 所 有 媒介 的 持续 的 问题 。 在 
Packt， 我 们 很 认真 地 看 竺 版 权 和 许可 保护 。 如 果 你 不 经 意 在 互联 网 上 
得 到 了 关于 我 们 作品 的 任何 形式 的 不 合法 的 副本 ， 请 及 时 给 我 们 提供 其 
地 址 或 者 网 站 名 称 ， 以 便 我 们 及 时 补救 。 

请 通过 copyright@packtpub.com 联 系 我 们 ， 同 时 请 提供 涉嫌 侵权 材 
料 的 链接 。 

非常 感激 你 帮助 保护 我 们 的 作者 ， 让 我 们 尽力 提供 更 有 价值 的 内 
容 。 

问题 

如 果 你 对 本 书 有 任何 疑问 ， 可 以 通过 questions@packtpub.com 联系 
我 们 ， 我 们 会 竭尽 全 力 提 供 帮 助 。 




















第 1 草 准备 工作 环境 


本 章 包 含 以 下 内 容 。 

€ 安 痛 matplotlib、NumPy 和 SciPy 库 

€ 安装 virtualenv 和 virtualenvwrapper 

€ 在 Mac OSX 上 安装 matplotlib 

€ 在 Windows 上 安装 matplotlib 

€ 安装 Python 图 像 处 理 库 (Python Imaging Library, PIL) 
€ 安装 requests 模 块 

€ 通过 代码 设置 matplotlib 的 参数 

€ 为 项 目 设 置 matplotlib 的 参数 


本 章 问 读者 介绍 必 备 的 工具 类 库 ， 以 及 如 何 进 行 安装 与 配置 。 作 为 
本 书后 续 部 分 的 基础 知识 ， 掌 握 这 部 分 内 容 十 分 必要 。 如 果 你 没有 使 用 
python 进行 数 据 处 理 、 图 像 处 理 以 及 数据 可 视 化 的 经 验 ， 建 议 不 要 跳 过 
本 章 。 如 略 过 本 章 ， 在 再 要 安装 配套 工具 软件 或 需要 确定 工程 所 文 持 的 
软件 版 本 时 ， 可 返回 本 章 阅 读 相 关内 容 。 











1.2 安装 matplotiib、Numpv 和 Sci 


本 章 介 绍 了 matplotlib 及 其 依赖 的 软件 在 Linux 平 台 上 的 几 种 安装 方 
ae 


1.2.1 准备 工作 


这 里 假设 你 已 经 安装 了 Linux ARRAS Python “推荐 使 用 
Debian/Ubuntu ”或 RedHat/SciLinux) 。 在 前 面 提 到 的 Linux 系 统 发 行 版 
中 ，Python 通 常 是 默认 安装 的 。 如 果 没 有 ， 使 用 标准 的 软件 安装 方式 安 
装 Python 也 是 非常 简便 的 。 本 书 假 设 你 安装 的 Python 版 本 为 2.7 或 以 上 。 
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几乎 所 有 的 代码 均 可 在 Python 3.3 及 以 上 版 本 的 环境 下 工作 ， 但 是 
因为 大 部 分 操作 系统 提供 的 Python 版 本 仍然 是 2.7( 甚 至 是 2.6) ， 本 书 
代码 基于 Python 2.7 版 本 。 这 种 基于 Python 版 本 的 区 别 并 不 大 ， 主 要 是 
在 软件 包 版 本 和 部 分 代码 上 存在 差别 〈 在 Python3.3 以 上 版 本 ， 请 使 用 
range 方 法 替换 xrang 方 法 ) 。 

本 书 也 假设 你 知道 如 何 使 用 操作 系统 软件 包 管 理工 具 进 行 软 件 包 的 
安装 ， 以 及 知道 如 何 使 用 命令 行 终端 。 

构建 matplotlib 运 行 环境 ， 需 要 满足 相关 软件 依赖 。 

Matplotlib 的 构建 过 程 依赖 NumPy、libpng 和 和 freetype 软 件 包 。 要 从 源 
代码 构建 matplotlib， 必 须 先 要 安装 好 NumPy 库 。 读 者 可 以 访问 
http://www.numpy.org/ 了 解 安装 NumPy 库 的 方法 (请 安装 1.4 或 以 上 版 
本 ，Python 3 需要 NumPy 1.5 或 以 上 版 本 ) 。 





NumPy 库 提供 处 理 大 数据 集 的 数据 结构 和 数学 方法 。 诸 如 元 组 、 列 
表 或 字典 等 Python 的 默认 数据 结构 同样 可 以 很 好 地 文 持 数据 的 插入 、 删 
除 和 连接 。NumPy 的 数据 结构 文 持 “ 和 天 量 ”操作 ， 使 用 简便 ， 同 时 具有 很 
高 的 执行 效率 。 矢 量 操作 在 实现 时 充分 考虑 了 大 数据 的 需要 ， 基 于 C 语 
言 的 实现 方式 也 保证 了 执行 效率 。 

基于 NumPy 构 建 的 SciPy 库 ， 是 Python 的 标准 科学 计算 和 数学 计算 
工具 包 ， 包 含 了 大 量 的 专用 函数 和 算法 。 而 大 部 分 函数 和 算法 源 上 自若 名 
的 Netlib 软 件 仓 库 (参见 http:/www.netlib.org，〉， 实 际 上 是 使 用 C 语 言 和 
Fortran 语 言 实现 的 。 

安 半 NumPy 库 的 步骤 如 下 。 

1. 安 装 Python-NumPy 软 件 包 。 

$ sudo apt-get install python-numpy 

2. 检 查 软件 包 版 本 。 

$ python -c 'import numpy; print numpy. version ' 

3. 安 装 所 需 的 库 。 

@ libpng 1.2: PNG 文件 处 理 〈 依 赖 zlib JÆ) 。 

€ freetype 1.4+: 处 理 True type 字体 。 

$ sudo apt-get install build-dep python-matplotlib 

如 果 使 用 RedHat 或 基于 RedHat 的 Linux 发 行 版 (Fedora、SciLinux 或 
CentOS) ， 可 以 使 用 yum 工 具 进行 安装 ， 方 法 与 aptrget 工 具 类 似 。 

$ su -c 'yum-builddep python-matplotlib' 











1.2.2 un Ip 


安装 matplotlib 及 其 依赖 软件 的 方法 有 很 多 : MIRRE, DERIT 





编译 完成 的 二 进 制 文件 安装 ， 通 过 操作 系统 软件 包 管 理工 具 安 装 ， 或 安 
闭 内 置 了 matplotlib 的 python 预 打包 发 布 版 本 。 

使 用 包 管 理工 具 大 概 是 最 简单 的 安装 方式 。 例 如 在 Ubuntu 系统 中 ， 
在 命令 行 终端 中 输入 下 面 的 命令 即 可 。 

# in your terminal, type: 

$ sudo apt-get install python-numpy python-matplotlib python-scipy 

如 果 读 者 期 望 使 用 最 新 特性 ， 最 好 的 选择 是 通过 源 代 码 进 行 安装 。 
安装 方式 包含 以 下 步骤 获取 源 代码 、 构 建 依赖 库 和 参数 配置 、 编 译 以 
及 安装 。 

可 以 从 代码 托管 站 点 www.github.com 下 载 最 新 代码 进行 安装 ， 操 作 
步骤 如 下 。 

$ cd ~/Downloads/ 

$ wget https://github.com/downloads/matplotlib/matplotlib/matplotlib- 
1.2. 0.tar.gz 

$ tar xzf matplotlib-1.2.0.tar.gz 

$ cd matplotlib-1.2.0 

$ python setup.py build 

$ sudo python setup.py install 

4 Python 数据 可 视 化 编程 实战 

M 





下 载 示 例 代 码 

对 于 使 用 网 站 账户 在 http://www.packtpub.com 上 购买 的 所 有 Packt 
书籍 ， 读 者 均 可 在 网 站 上 下 载 有 关 的 代码 示例 。 如 果 读 者 是 从 别处 购 得 
图 书 ， 可 以 访问 网 址 (http://www.packtpub.com/support/〉， 完 成 注册 
后 ， 代 码 文 件 会 发 送 到 读者 邮箱 。 





12.3 LI eee 


从 源 代码 安装 matplotlib, 使 用 了 标准 的 Python 发 布 工具 Distutils. 
安装 过 程 需要 提前 安装 依赖 的 软件 包 。 关 于 使 用 标准 的 Linux 包 管 理工 
有 具 安 闭 依赖 软件 的 方法 ， 可 参考 本 节 中 关于 准备 工作 的 说 明 。 


1.2.4 th FR UH 








根据 数据 可 视 化 项 目的 需要 ， 可 能 有 必要 安装 额外 的 可 选 软件 包 。 

无 论 你 工作 在 什么 项 目 上 ，IPython 都 是 值得 推荐 的 。IPython 是 一 
球 交 互 式 Python 命 令 行 工 具 。 其 提供 的 PyLab 模 式 ， 已 经 导入 了 
matplotlib 库 与 相关 软件 包 ( 例 如 NumPy 和 SciPy) ， 可 以 直接 使 用 相关 
库 的 功能 。IPython 工具 的 安装 与 使 用 方法 十 分 简单 明了 ， 读 者 可 通过 
IPython 的 官方 网 站 查看 相关 细 市 。 








1.3 安装 virtualenv 和 virtualenvwrapper 


如 果 同 时 工作 在 多 个 项 目 上 ， 或 是 需要 在 不 同 项 目 间 频 繁 切 换 ， 将 
所 有 的 软件 都 安装 在 操作 系统 层级 上 也 许 不 是 一 个 好 主意 。 当 需要 在 不 
同系 统 《〈 产 品 环境 ) 上 运行 软件 时 ， 这 种 方式 会 市 来 问题 。 如 果 到 此 时 
才 发 现 缺 少 特定 的 软件 包 ， 或 是 产品 环境 已 经 安装 的 软件 包 存 在 版 本 冲 
突 ， 这 将 是 非常 痛 闫 的。 为 避免 这 种 情况 发 生 ， 可 以 选择 使 用 
virtualenv. 

virtualenv 是 由 Ian Bicking 创建 的 开放 源 代码 项 目 。 通 过 这 个 项 目 ， 
开发 人 员 可 以 把 不 同 项 目的 工作 环境 隔离 开 ， 从 而 能 够 更 容易 地 维护 多 
种 不 同 的 软件 包 版 本 。 

举例 来 说 ，Django 网 站 系统 是 基于 Django 1.1 和 Python 2.3 版 本 开 
发 的 ， 但 与 此 同时 ， 一 个 新 项 目 要 求 必 须 基 于 Python2.6 来 开发 。 在 笔者 
工作 过 的 项 目 中 ， 根 据 项 目的 需要 同时 使 用 多 个 版 本 的 Python 〈 以 及 相 
关 软 件 包 ) 的 情况 非常 普遍。 

virtualenv 能 够 让 我 们 很 容易 地 在 不 同 的 运行 环境 之 间 切 换 。 同 时 ， 
如 果 需 要 切换 到 男 外 的 机 器 或 者 需要 在 产品 服务 器 (或 客户 的 工作 站 主 
NL) 上 部 署 软件 ,用 virtualenv 能 够 很 容易 地 重新 构建 相同 的 软件 包 环 
Tro 












































1.3.1 准备 工作 


若 安 装 virtualenv， 需 要 用 到 Python 和 pip。Pip 是 安装 并 管理 Python 
软件 包 的 工具 ， 可 以 用 它 来 代替 easy install 工具 。 本 书 中 大 部 分 的 软件 
包 都 是 用 pip 工具 进行 管理 的 。 只 需 在 终端 中 以 root 身 份 执行 如 下 命 





令 ， 就 可 以 很 容易 地 完成 pip 的 安装 。 

# easy_install pip 

virtualenv 本 喘 已 经 相当 不 错 了 ， 然 而 如 果 配 合 virtualenvwrapper, 
一 切 变 得 更 加 简单 ， 并 且 组 织 多 个 虚拟 环境 的 工作 也 会 更 加 容易 。 


virtualenvwrapper 的 功能 请 参考 http://virtualenvwrapper. 


RI 





readthedocs.org/en/latest/Zfeatures 。 
1.3.2 操作 步 双 C 


安装 virtualenv 和 virtualenvwrapper 工 具 的 步骤 如 下 。 

1. 安 装 virtualenv 和 virtualenvwrapper。 

$ sudo pip virtualenv 

$ sudo pip virtualenvwrapper 

# 创建 保存 虚拟 环境 的 目录 ， 并 使 用 export 导出 为 环境 变量 。 
$ export VIRTENV=~/.virtualenvs 

$ mkdir -p SVIRTENV 

# 使 用 source 命令 调用 《执行 ) shell 脚本 来 激活 包装 器 
$ source /usr/local/bin/virtualenvwrapper.sh 

# 创建 一 个 虚拟 环境 

$ mkvirtualenv virt1 

2. 在 virt1 环 境 中 安装 matplotlib。 

(virt1)user1:~$ pip install matplotlib 

3. 很 有 可 能 需要 把 以 下 代码 添加 到 一 /bashrc 中 。 

source /usr/loca/bin/virtualenvwrapper.sh 

下 面 是 一 些 有 用 和 频繁 使 用 的 命令 。 

€ mkvirtualenv ENV: 创建 名 为 ENV 的 虚拟 环境 并 激活 。 
€ workon ENV: 激活 先前 创建 的 ENV 虚拟 环境 。 


€ deactivate: 退出 当前 虚拟 环境 。 


1.4 在 Mac OS XX 上 安装 matplotlib 


在 Mac OS X 上 获取 matplotlib 最 简便 的 方式 是 使 用 预 打 包 的 
python 发 布 版 本 ， 例 如 Enthought Python Distribution (EPD)。 读 者 可 以 直 
接 访 问 EPD 网 站 ， 下 载 安装 操作 系统 对 应 的 最 新 稳定 版 。 

倘 奋 EPD 软 件 不 满足 要 求 ， 或 者 因为 其 他 一 些 原 因 《 如 版 本 问题 ) 
而 无 法 使 用 ， 也 可 以 用 手动 (麻烦 点 ) 的 方式 安装 Python、matplotlib 和 
依赖 软件 。 


1.4.1 准备 工作 


对 于 Apple 在 操作 系统 中 没有 安装 的 软件 来 说 ，Homebrew 项 目 可 以 
使 安装 过 程 更 容易 。 实 际 上 ，Homebrew 是 基于 Ruby 和 Git 的 ， 可 以 被 自 
动 下 载 和 安装 。 软 件 安装 顺序 为 : 首先 安装 Homebrew, 之 后 安装 
Python， 随 后 安装 诸如 virtualenv 的 工具 软件 ， 接 下 来 安装 matplotlib 的 
依赖 (NumPy 和 SciPy) ， 最 后 安装 matplotlib。 接 下 来 就 开始 吧 。 


1.4.2 un na. 


1. 在 终端 中 输入 并 执行 下 面 的 命令 。 

ruby <(curl -fsSkL raw.github.com/mxcl/homebrew/go) 

命令 执行 完成 后 ， 可 以 尝试 用 brew update 或 brew doctor 命令 来 检 
ft brew 是 否 能 够 正常 工作 。 


Homebrew 安 装 的 软件 包 能 够 获得 比 其 他 版 本 更 高 的 优先 级 。 打 开 
一 /.bash_profile 文 件 (或 者 /Users/[your-user-name]/.bash_profile〉 并 在 文 


件 末 尾 添加 以 下 代码 。 

export PATH=/usr/local/bin:$PATH 

3. 重 新 启动 命 令 行 终端 使 其 加 载 新 的 path 环境 变量 。 之 后 ， 下 面 一 
行 简单 的 代 人 码 就 可 以 完成 Python 的 安装 。 

brew install python --framework -universal 

本 命令 同时 也 将 安装 Python 所 需 的 其 他 软件 。 

4. 更 新 path 环 境 变量 (添加 到 同一 行 )。 

export PATH=/usr/local/share/python:/usr/local/bin:$PATH 

5. 在 命令 行 输入 python -version, 检 查 python 是 否 安 装 成功 。 

正常 的 话 ， 会 能 够 看 到 Python 版 本 信息 为 2.7.3。 

6.pip 应 该 也 已 经 安装 完毕 。 如 果 还 没有 ， 可 使 用 easy_install 安 装 
pip. 

$ easy_install pip 

7. 这 时 ， 任 何 所 需 软 件 包 的 安装 过 程 就 变 得 非常 简单 了 。 例 如 ， 安 
装 virtualenv 和 virtualenvwrapper。 

pip install virtualenv 

pip install virtualenvwrapper 

8. 是 时 候 癌 一 直 以 来 的 目标 迈进 了 一 一 安装 matplotlib。 

pip install numpy 

brew install gfortran 

pip install scipy 
al 


im 


Mountain Lion 的 用 户 需要 安装 SciPy 的 开发 版 〈0.11) ， 命 令 如 


pip install -e git+https://github.com/scipy/scipy#egg=scipy- dev 





9. 检 查 安装 是 否 成 功 。 启 动 Python 并 执行 以 下 命令 。 
import numpy 

print numpy. version 

import scipy 

printscipy. version 

quit() 

10. 安 装 matplotlib 。 

pip install matplotlib 


1.5 在 Windows 上 安装 matplotlib 


在 本 节 中 ， 我 们 将 演示 如 何 安 装 Python 和 matplotlib。 假 设 系 统 中 没 
有 预先 安装 Python 。 


1.5.1 准备 工作 





在 Windows 上 安装 matplotlib 有 两 种 方式 。 较 简单 的 方式 是 安装 预 打 
包 的 Python 环境 ， 如 EPD、Anaconda 和 Python(x,y)。 这 是 本 书 推荐 的 安 
装 方 式 ， 尤 其 对 于 初学 者 来 说 更 是 如 此 。 

第 二 种 方式 ， 是 使 用 预 编译 的 二 进 制 文件 来 安装 matplotlib 和 依赖 软 
件 包 。 需 要 注意 安装 的 NumPy 和 SciPy 的 版 本 ， 因 为 并 非 所 有 的 版 本 都 
与 最 新 版 matplotlib 二 进 制 文件 相互 兼容 ， 这 势必 会 给 整个 安装 过 程 带 来 
一 些 困 难 。 这 种 安装 方法 也 有 自 吴 的 优势 。 如 果 想 要 获取 最 新 功能 ， 即 
使 功能 还 未 正式 发 布 ， 仍 然 能 够 通过 编译 matplotlib 或 某 软件 库 的 某 个 特 
定 版 本 来 使 用 它 。 











1.5.2 +E oR 





要 安装 免费 或 商业 Python 科学 上 肥 布 版 ， 按 照 项 目 网 站 上 提供 的 步骤 
可 以 很 容易 安装 成 功 ， 这 也 是 推荐 使 用 的 方式 。 

如 果 单 纯 使 用 matplotlib, 不 期 望 面 对 Python 和 依赖 软件 包 版 本 所 带 来 
的 困扰 ， 可 以 考虑 使 用 Enthought Python Distribution(EPD) 发 布 版 。 使 用 
matplotlib ”所 需 的 预 打 包 库 和 所 有 必须 的 依赖 软件 (SciPy、NumPy、 
IPython 以 及 更 多 的 其 他 软件 包 ) ， 均 已 包含 在 EPD 发 布 版 中 。 

matplotlib 以 及 与 本 书 内 容 相关 的 软件 ， 都 可 以 使 用 常规 的 


Windows Installer 安装 文件 (*.exe) 方式 进行 安装 。 

Python(x,y) (http://code.google.com/p/pythonxy/) 是 针对 Windows 
32 位 系统 的 免费 科学 计算 项 目 ， 其 中 包含 了 matplotlib 需要 使 用 的 依赖 
文件 ， 它 是 在 Windows 系统 上 安装 matplotlib 的 一 种 非常 简单 (而 且 是 
免费 的 ) 的 方式 。 因 为 Python(x,y) 和 Python 模块 安装 器 相互 兼容 ， 可 
以 很 容易 地 在 Python(x,y) 基 础 上 扩展 安装 其 他 Python 库 。 在 安装 
Python(x,y) 之 前 ， 系 统 应 该 没有 安装 Python。 

下 面 简短 地 说 明 一 下 如 何 使 用 预 编 译 的 Python、NumPy、SciPy 和 
matplotlib 二 进 制 文件 进行 matplotlib 的 安装 。 首 先 ， 下 载 官方 的 MSI 安 装 
文件 安装 对 应 平台 (x86 或 x86-64)〉 的 标准 Python 程序 。 之 后 ， 下 载 
NumPy 和 SciPy 的 官方 二 进 制 文件 并 安装 它们 。 在 正确 安装 NumPy 和 
SciPy 之 后 ， 就 可 以 下 载 最 新 稳定 版 matplotlib 二 进 制 安装 文件 并 按照 官 
方 说 明 进 行 安 装 了 。 








1.5.3 补充 说 日 


请 注意 ， 在 Windows 安 装 文件 中 matplotlib 的 示例 相当 有 限 。 如 果 想 
尝试 使 用 示例 程序 ， 可 以 下 载 并 参考 matplotlib 源 文件 包 中 的 examples 子 
目录 。 





Python 图 像 库 〈PIL ) 为 Python 提供 了 图 像 处 理 能 力 。PIL 文 持 的 文 
件 格式 相当 广泛 ， 在 图 像 处理 领 域 提 供 了 相当 强大 的 功能 。 

快速 数据 访问 、 点 运算 (point operations) 、 滤 波 (filtering) 、 图 
像 缩放 、 旋 转 、 任 意 仿 射 转换 (arbitrary affine transforms) 是 PIL 中 一 
些 应 用 非常 广泛 的 特性 。 例 如 ， 图 像 的 统计 数据 即 可 通过 histogram 方 法 
获得 。 

PIL 同样 可 以 应 用 在 其 他 方面 ， 如 批量 处 理 、 网 像 压 缩 、 生 成 缩 略 
图 、 图 像 格式 转换 以 及 图 像 打 印 。 

PIL 可 以 读 取 多 种 图 像 格式 ， 而 图 像 号 入 文 持 的 格式 范围 限定 在 图 
像 交 换 和 展示 方面 最 通用 的 格式 《有 意 为 之 ) 。 














1.6.1 un pU 











最 容易 也 是 最 值得 推荐 的 方式 ， 是 通过 操作 系统 平台 的 包 管 理工 具 
进行 安装 。 

在 Debian/Ubuntu 系 统 中 安装 的 命令 如 下 。 

$ sudo apt-get build-dep python-imaging 





$ sudo pip install http://effbot.org/downloads/Imaging-1.1.7.tar.gz 


1.6.2 安装 过 程 说 明 


我 们 通过 apt-get 系 统 工具 安装 PIL 所 需 的 所 有 依赖 软件 ， 并 通过 pip 
安 逆 PIL 的 最 新 稳定 版 本 。 一 些 老 版 本 的 Ubuntu 系 统 通 常 不 会 提供 PIL 的 


最 新 发 布 版 本 。 
在 RedHat/SciLinux 系 统 中 ， 安 装 命令 如 下 。 
# yum install python-imaging 
# yum install freetype-devel 
# pip install PIL 


1.6.3 补充 说 日 


有 一 个 专门 针对 PIL 编写 的 在 线 手册 。 读 者 可 以 访问 
http://www.pythonware. com/library/pil/handbook/index.htm 进行 阅读 ， 或 
是 下 载 PDF ”有 版本: http://www.pythonware. com/media/data/pil- 
handbook.pdf. 

Pillow 是 一 个 PIL 分 文 ， 它 的 主要 目的 是 解决 安装 过 程 中 的 一 些 问 
题 。Pillow 很 容易 安装 ， 其 网 址 为 http://pypi.python.org/pypi/Pillow。 

在 Windows 平 台 上 ， 也 可 使 用 二 进 制 安装 文件 安装 PIL。 从 
http://www.pythonware. com/products/pil/ F ZX.exeZzJ& X fF, FAT IZ MF 
将 安装 PIL 到 Python 的 site-packages H 3& o 

如 果 需 要 在 虚拟 环境 下 使 用 PIL， 可 手动 将 PIL.pth 文件 和 位 于 
C:\Python27\Lib\site-packages 下 的 PIL 目 录 复 制 到 virtualenv 的 site- 
packages 目 录 下 。 


1.7 安装 requests 模 二 


我 们 需要 的 大 部 分 数据 都 可 以 通过 HTTP 或 类 似 协议 获得 ， 因 此 我 
们 需要 一 些 工 具 来 实现 数据 访问 。Python 的 requests 库 能 让 这 部 分 工作 变 
得 轻松 起 来 。 

虽然 Python 提供 的 urllib2 模 块 提供 了 访问 远程 资源 的 能 力 以 及 对 
HTTP 协 议 的 支持 ， 但 使 用 该 模块 完成 基础 任务 的 工作 量 还 是 很 大 的 。 

Request 模 块 提供 新 的 API， 减 轻 了 使 用 Web 服 务 的 痛 苗 ， 使 其 变 得 
更 直接 。Requests 封 装 了 很 多 HTTP 1.1 的 内 容 ， 仅 在 需要 实现 非 默认 行 
为 的 情况 下 才 需 要 暴露 相关 内 容 。 

















171 un pu 


安装 requests 模 块 最 好 的 方式 是 使 用 pip。 安 装 命 令 如 下 。 

$ pip install requests 

也 可 以 在 virtualenv 虚 拟 环 境 中 执行 安装 命令 ， 如 果 并 不 是 所 有 项 目 
都 需要 requests， 或 是 不 同 的 项 目 需要 使 用 不 同 版 本 的 requests。 

为 了 更 快 地 理解 requests 的 功能 ， 下 面 是 一 个 使 用 requests 的 小 例 
Ta 


import requests 





r = requests. get(‘http://github.com/timeline.json’) 


print r.content 
1.7.2 requests yi H 


在 本 例 中 ， 我 们 向 www.github.com 站 点 的 URI 发 送 HTTP GET 请 


求 ， 以 JSON 格 式 返回 了 GitHub 网 站 的 活动 时 间 表 (也 可 以 通过 访问 
https://github.com/timeline 得 到 HTML 版 本 的 活动 时 间 表 )〉 。 在 成 功 读 取 
HTTP 响 应 后 ， 对 象 r 包 含 了 HTTP 啊 应 内 容 以 及 其 他 属性 信息 (HTTP 状 
态 码 、cookies、HTTP 头 元 数据 ， 甚 至 包括 当前 啊 应 所 对 应 的 请 求 信 
息 ) 。 





1.8 在 代 伍 matplotlib 2 # 


matplotlib 库 提供 了 强大 的 绘图 功能 ， 是 本 书 用 的 最 多 的 Python 库 。 
在 其 配置 文件 即 .rc 文件 中 ， 已 经 为 大 部 分 属性 设 定 了 默认 值 。 本 节 会 介 
绍 如 何 通过 应 用 程序 代码 修改 matplotlib 的 相关 属性 值 。 


1.8.1 准备 工作 


如 前 所 述 ，matplotlib 配 置信 息 是 从 配置 文件 读 取 的 。 在 配置 文件 中 
可 以 为 matplotlib 的 几乎 所 有 的 属性 指定 永久 有 效 的 默认 值 。 


1.8.2 un +E oR 


在 代码 执行 过 程 中 ， 有 两 种 方式 更 改 运 行 参数 : 使 用 参数 字典 
(rcParams) 或 调用 matplotlib.rcO 命 令 。 第 一 种 方式 中 ， 可 以 通过 

rcParams 字 上 典 访问 并 修改 所 有 已 经 加 载 的 配置 项 ， 第 二 种 方式 中 ， 可 以 
通过 加 matlotlib.rcO 传 入 属性 的 关键 字 元 组 来 修改 配置 项 。 

如 果 需 要 重 置 动态 修改 后 的 配置 参数 ， 可 以 调用 
matplotlib.rcdefaultsO) 将 配置 重 置 为 标准 设置 。 

下 面 两 段 代 码 演 示 了 之 前 介绍 的 功能 。 

使 用 matplotlib.rcParams 的 例子 。 

import matplotlib as mp 

mpl.rcParams['lines.linewidth'] = 2 

mpl.rcParams['lines.color'] = 'r' 

使 用 matplotlib.rcO 函 数 调用 的 例子 。 


import matplotlib as mpl 


mpl.rc(‘lines', linewidth=2, color="r') 

上 面 两 个 例子 具有 相同 的 语义 。 第 二 个 例子 中 ， 我 们 设 定 后 续 的 所 
alata 的 线条 宽度 为 2 个 点 。 第 一 个 例子 中 的 最 后 一 条 语句 表明 ， 

语句 之 后 的 所 有 线条 的 颜色 均 为 红色 ， 除 非 用 本 地 设置 覆盖 它 ， 请 看 下 

面 的 例子 。 

import matplotlib.pyplot as plt 

import numpy as np 

t = np.arange(0.0, 1.0, 0.01) 

s = np.sin(2 * np.pi * t) 

# make line red 

plt.rcParams['lines.color'] = 'r' 

plt.plot(t,s) 

c = np.cos(2 * np.pi * t) 

# make line thick 

plt.rcParams[‘lines.linewidth'] = '3' 

plt.plot(t,c) 

plt.show() 


1.8.3 代码 解析 


首先 ， 为 了 绘制 正弦 、 人 余弦 曲 线 ， 需 要 导入 matplotlib.pyplot 和 
NumPy 模 块 。 在 绘制 第 一 个 图 像 之 前 ， 通 过 plt.rcParams['lines.color']= 
T' 语 句 i a. 接 下 来 ， 对 于 第 二 个 图 像 (余弦 曲 
线 ) ， 语句 plt.rcParams['lines. linewidth'] = '3' 显 式 地 设 定 线 宽 为 3 个 
is 


如 果 需 要 重 置 设置 ， 需 要 调用 matplotlib.rcdefaults() 方 法 。 


1.9 733i H i Smatplotlibe# 


本 市 介绍 matplotlib 使 用 的 各 种 配置 文件 的 位 置 ， 以 及 使 用 这 些 配 置 
文件 的 意义 。 同 时 还 将 介绍 配置 文件 中 的 具体 配置 项 。 


1.9.1 准备 工作 





如 果 不 想 在 每 次 使 用 matplotlib 时 都 在 代码 开始 部 分 进行 配置 〈 像 
前 一 节 我 们 做 的 那样 ) ， 就 需要 为 不 同 的 项 目 设 定 不 同 的 默认 配置 项 。 
本 市 将 介绍 如 何 做 到 这 一 点 。 这 种 配置 方式 使 得 配置 项 与 代码 分 离 ， 从 
而 使 代码 更 加 整洁 。 此 外 ， 你 可 以 很 容易 在 同事 间 甚 至 项 目 间 分 至 配置 
模板 。 














1.9.2 配置 方法 


假设 一 个 项 目 对 于 matplotlib 的 特性 参数 总 会 设置 相同 的 值 ， 就 没有 
必要 在 每 次 编写 新 的 绘图 代码 时 都 进行 相同 的 配置 。 取 而 代 之 的 ， 应 该 
是 在 代码 之 外 ， 使 用 一 个 永久 的 文件 设 定 matplotlib 参 数 默认 值 。 

通过 matplotlibrc 来 配置 文件 ，matplotlib 提供 了 对 这 种 配置 方式 的 
文 持 。 在 matplotlibrc 文 件 中 包含 了 绝 大 部 分 可 以 变更 的 属性 。 


1.9.3 配置 过 程 说 明 


配置 文件 可 能 存在 于 三 个 不 同 的 位 置 ， 而 它们 的 位 置 决定 了 它们 的 
应 用 范围 。 这 三 个 位 置 分 别 说 明 如 下 。 

€ ”当前 工作 目录 : 即 代 码 运行 的 目录 。 在 当前 目录 下 ， 可 以 为 目 
录 所 包含 的 当前 项 目 代 码 定制 matplotlib 配 置 项 。 配 置 文件 的 文件 名 是 











matplotlibrc. 

+ 用 户 级 .matplotlib/matplotlibrc 文件 (Per user 
.matplotlib/matplotlibrc): 通常 是 在 用 户 的 $4HOME 目录 下 (在 Windows 
AA, WE Documents and Settings Haos 可 以 用 
matplotlib.get_configdir() 命 令 来 找到 当前 用 户 的 配置 文件 目录 。 请 参考 
随后 的 命令 示例 。 

€ 安装 级 配置 文件 (Per installation configuration file) : 通常 在 
python 的 site-packages 目 录 下 。 这 是 系统 级 配置 ， 不 过 在 每 次 重新 安装 
matplotlib 后 ， 配 置 文件 会 被 履 羡 。 因 此 如 果 和 希望 保持 持久 有 效 的 配置 ， 
最 好 选择 在 用 户 级 配置 文件 中 进行 设置 。 对 于 笔者 来 说， 目前 对 本 配置 
文件 的 最 佳 应 用 方式 ， 是 将 其 作为 默认 配置 模板 。 如 果 在 用 户 级 配置 文 
件 已 经 比较 混乱 ， 或 者 需要 为 新 项 目 做 全 新 配置 时 ， 可 以 基于 该 配置 文 
件 进行 设置 。 

在 shell 中 运行 下 面 的 命令 ， 即 可 打印 出 配置 文件 目录 的 位 置 : 

$ python -c 'import matplotlib as mpl; print mpl.get_configdir()' 

配置 文件 包括 以 下 配置 项 。 

€ axes: 设置 坐标 轴 边 界 和 表面 的 颜色 、 坐 标 刻 度 值 大 小 和 网 格 的 
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显示 
€ backend: 设置 目标 输出 TkAgg 和 GTKAgg。 
€ figure: 控制 dpij、 边 界 颜色 、 图 形 大 小 和 子 区 (subplot) 设置 。 
€ font: 字体 集 (font family) 、 字 体 大 小 和 样式 设置 。 
€ grid: 设置 网 格 颜色 和 线 型 。 
€ legend: 设置 图 例 和 其 中 文本 的 显示 。 
€ line: 设置 线条 【颜色 、 线 型 、 宽 度 等 ) 和 标记 。 
€ patch: 是 填充 2D 空间 的 图 形 对 象 ， 如 多 边 形 和 圆 。 控 制 线 宽 、 
颜色 和 抗 锯齿 设置 等 。 
€ savefig: 可 以 对 保存 的 图 形 进行 单独 设置 。 例 如 ， 设 置 演 染 的 文 


件 的 背景 为 白色 。 
€ text: 设置 字体 颜色 、 文 本 解析 〈 纯 文本 或 latex 标记 ) 等 。 


€ verbose: 设置 matplotlib 在 执行 期 间 信 息 输 出 ， 如 silent, 


helpful. debug 和 debug-annoying。 
€ xticks 和 yticks: Ax, 、y 轴 的 主 刻度 和 次 刻度 设置 颜色 、 大 小 、 


方向 ， 以 及 标签 大 小 。 
1.9.4 补充 说 日 


如 果 你 想 了 解 前 面 提 到 的 《和 我 们 没有 提 到 的 ) 每 个 设置 的 详细 信 


最 好 的 方式 是 访问 matplotlib 项 目的 网 站 ， 那 里 提供 了 最 新 的 API 
Ap 


EJ 
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文档 。 如 果 需 要 获得 进一步 帮助 ， 可 以 在 用 户 和 开发 邮件 组 留言 。 
最 后 还 提供 了 一 些 有 用 的 在 线 资源 。 
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在 本 章 中 ， 我 们 会 介绍 以 下 内 容 。 
€ 从 CSV 文件 导入 数据 

@ 从 Microsoft Excel 文件 导入 数据 
€ 从 定 宽 数据 文件 导入 数据 

€ 从 制 表 符 分 隔 的 文件 导入 数据 
@ 从 JSON 数据 源 导 入 数据 

€ 导出 数据 到 JSON、CSV 和 Excel 
€ 从 数据 库 导 入 数据 

€ 清理 异常 值 

€ 读 取 大 块 数据 文件 

€ 读 取 流 数 据 源 

9 导入 图 像 数 据 到 NumPy 数组 

€ 生成 可 控 的 随机 数据 集合 

€ 真实 数据 的 噪声 平滑 处 理 





本 章 涵 凋 了 导入 和 导出 各 种 格式 数据 的 基本 知识 。 除 此 之 外 ， 还 包 
括 清理 数据 的 方式 ， 比 如 值 的 归 一 化 处 理 、 缺 失 数据 的 添加 、 实 时 数据 
检查 以 及 一 些 类 似 的 技巧 ， 以 便 正确 地 准备 数据 来 进行 可 视 化 。 


2.2 JK CSV X ffr S 


在 本 节 中 ， 我 们 将 处 理 每 个 人 都 能 接触 到 的 最 常用 的 文件 格式 一 一 
CSV。 顾 名 思 义 ，CSV 是 指 有 逗 号 分 隔 的 值 〈 文 件 中 还 包括 一 个 文件 头 ， 
也 是 以 逗号 分 隔 的 ) 。 

Python 中 有 个 csv 模 块 支持 读 写 各 种 方言 格式 的 CSV 文 件 。 方 言 是 很 
重要 的 ， 因 为 没有 一 个 统一 的 CSV 标 准 ， 不 同 的 应 用 实现 CSV 的 方式 略 
有 不 同 。 当 看 到 文件 内 容 的 时 候 ， 你 往往 就 能 很 容易 地 辨认 出 文件 使 用 
的 是 哪 种 方言 。 














2.2.1 ;准备 工作 


在 本 节 中 ， 我 们 把 ch02-data.csv 文 件 的 内 容 用 作 示 例 数 据 ， 你 可 以 
把 它 下 载 到 本 地 。 
我 们 假定 示例 数据 文件 和 读 取 数据 文件 的 代码 在 相同 目录 下 。 


2.2.2 YET E2V UE 
下 面 的 示例 代码 解释 了 如 何 从 CSV 文 件 导入 数据 ， 步 又 如 下 。 


1. 打 开 ch02-data.csv 文 件 。 
2. 首 先 读 取 文 件 头 。 


4. 当 发 生 错误 时 抛 出 异常 。 
读 取 完 所 有 内 容 后 ， 打 印 文件 头 和 其 余 所 有 行 。 


import CSV 





filename = 'ch02-data.csv' 


data = [] 
try: 
with open(filename) as f: 
reader = csv.reader(f) 
header = reader.next() 
data = [row for row in reader] 
except csv.Error as e: 
print "Error reading CSV file at line %s: %s" % (reader.line_num, e) 
sys.exit(-1) 
if header: 


print header 


for datarow in data: 


print datarow 


22.3 VERE 


首先 ， 导 入 csv 模 块 以 便 能 访问 所 需 的 方法 。 然 后 ， 用 with 语句 打开 
数据 文件 并 把 它 绑 定 到 对 象 f。 不 必 操 心 在 操作 完 资 源 后 去 关闭 数据 文 
件 ，with 语 句 的 上 下 文 管理 器 会 帮助 处 理 。 这 在 操作 资源 型 文件 时 非常 
方便 ， 因 为 它 能 确保 在 代码 块 执行 完毕 后 资源 会 被 释放 掉 《〈 比 如 关闭 文 
件 ) 。 

然后 ， 用 csv.reader() 方 法 返回 reader 对 象 ， 通 过 该 对 象 裔 历 所 读 取 
文件 的 所 有 行 。 在 这 里 ， 每 行内 容 不 过 是 一 个 值 列 表 ， 在 循环 中 被 打印 
出 来 。 

文件 的 第 一 行 是 文件 凑 ， 用 来 描述 文件 中 每 列 的 数据 ， 在 读 取 时 多 
少 有 些 不 同 。 文 件 头 并 不 是 必需 的 ， 有 些 CSV 文 件 就 不 带 文 件 头 ， 但 是 














它们 确实 是 提供 数据 集合 的 最 小 元 数据 信息 的 一 个 不 错 的 方式 。 然 而 ， 
有 时 候 会 碰 到 用 分 隔 的 文本 或 者 仅 用 作 元 数据 的 CSV 文 件 ， 来 描述 数据 
格式 和 附加 数据 的 情况 。 

此 时 只 能 打开 文件 来 看 看 第 一 行 是 数据 头 还 是 数据 《〈 例 如 得 看 文件 
的 前 几 行 ) 。 这 在 Linux 系 统 上 用 bash 命 令 如 head 可 以 很 容易 做 到 ， 格 式 
如 下 所 示 。 

$ head some_file.csv 

在 遍历 数据 时 ， 我 们 把 第 一 行 存储 为 文件 涉 ， 把 其 他 行 添加 到 数据 
列表 中 。 

读 取 文件 时 一 旦 出 了 问题 ，csv.reader() 方 法 会 生成 错误 信息 。 为 了 
能 帮助 用 户 发 现 问 题 ， 可 以 捕获 这 些 错误 信息 并 给 用 户 打 印 出 有 用 的 信 


EI 


2.2.4 42g Wi B 


如 果 想 了 解 csv 模 块 的 来 龙 去 脉 ， 可 以 看 一 下 PEP 文 档 中 的 《CSV 文 
件 API》， 参 见 http://www.python.org/dev/peps/pep-0305/。 

如 果 想 加 载 大 数据 文件 ， 明 智 的 做 法 通常 是 使 用 一 些 著 名 的 库 如 
NumpPy 的 loadtxt() 方 法 ， 这 个 方法 可 以 很 好 地 处 理 CSV 大 数据 文件 。 

基本 用 法 非常 简单 ， 如 下 面 的 代码 段 所 示 。 

import numpy 

data-numpy.loadtxt('ch02-data.csv',dtype-'string', delimiter=",") 

值得 注意 的 是 ， 为 了 能 让 NumPy 正 确 地 分 隔 数据 ， 需 要 定义 分 隔 
符 。numpy.loadtxt(0) 方 法 比 类 似 的 numpy.genfromtxt0) 方 法 要 快 一 些 ， 但 
是 后 者 能 更 好 地 处 理 缺失 数据 ， 而 且 在 处 理 已 加 载 文件 的 某 些 列 时 ， 可 
以 使 用 一 些 方法 来 做 些 额外 的 事情 。 











HAT, Œ Python 2.7.x 版 本 中 ，csv 模 块 不 支持 Unicode 编码 ， 必 须 
把 读 取 的 数据 显 式 地 转换 成 可 打印 的 UTF-8 或 者 ASCI 编 码 。 官 方 的 
Python CSV 文 档 提供 了 一 些 解 决 数据 编码 问题 的 很 好 的 示例 。 

Python3.3 及 后 续 版 本 默认 文 持 Unicode 编 码 ， 不 存在 此 类 问题 。 


2.3 JA Microsoft Excel) Ss 


虽然 Microsoft Excel 文 持 一 些 画 图 操作 ， 但 如 果 需 要 更 加 灵活 和 强 
大 的 可 视 化 效果 ， 就 需要 把 数据 从 表单 中 导出 到 Python 中 以 备 将 来 之 

从 Excel 文 件 导 入 数据 的 通常 做 法 是 把 数据 从 Excel 中 导出 到 CSV 格 
式 的 文件 中 ， 然 后 用 上 市 中 提 到 的 方法 使 用 Python 从 CSV 文 件 中 导入 数 
据 。 如 有 果 只 有 一 两 个 文件 〈 并 且 安 装 了 Microsoft Excel ”或 者 
OpenOffice.org) ， 事 情 束 相当 人 简单。 但 是 如 果 想 上 自动 化 地 对 大 量 文 件 
进行 数据 管道 处 理 〈 作 为 数据 连续 处 理 流程 的 一 部 分 ) ， 那 么 手动 把 每 
个 Excel 文 件 转换 成 CSV 文 件 的 做 法 就 行 不 通 了 。 因 此 ， 我 们 需要 一 种 
方法 来 读 取 Excel 文 件 。 

通过 www.python-excel.org 项 目 提供 的 软件 包 ，Python 可 以 很 好 地 文 
持 Excel 文 件 的 读 写 操作 。 对 读 操 作 和 写 操作 的 文 持 是 通过 不 同 模块 实 
现 的 ， 而 且 是 平台 无 关 的 。 换 言 之 ， 我 们 不 必 为 了 读 取 Excel 文 件 而 必 
须要 在 Windows 平 台 上 工作 。 

Microsoft Excel 文件 格式 随 厦 时 间 发 生 关 变化， 不 同 的 Python 库 对 
其 都 有 相应 的 支持 。 在 写作 本 书 时 ，XLRD 最 新 的 稳定 版 本 是 0.90， 它 
己 经 支持 读 取 .xlsx 文 件 了 。 











2.3.1 准备 工作 


首先 ， 我 们 需要 安装 所 震 的 模块 ， 在 这 个 例子 中 我 们 将 使 用 xlrd 模 
块 。 我 们 将 用 pip 在 虚拟 环境 中 安装 此 模块 。 


$ mkvirtualenv xlrdexample 


(xlrdexample)$ pip install xlrd 
安装 完毕 后 ， 我 们 将 用 ch02-xlsxdata.xlsx 示 例文 件 做 演示 。 


2.3.2 un pa: 





接 下 来 的 示例 代码 将 展示 如 何 从 已 知 的 Excel 文 件 中 读 取 一 个 样本 
数据 集合 。 
1.1] FP OCA AY LE 
2. 根 据 名 称 找到 工作 表 。 根 据 行 数 Cnrows) 和 列 数 (ncols) 读 取 
单元 格 的 内 容 。 
3. 因 为 只 是 用 作 演 示 ， 本 例 仅 打印 出 了 读 取 的 数据 集合 。 
import xlrd 
file = 'ch02-xlsxdata.xlsx' 
wb = xlrd.open workbook(filename-file) 
ws = wb.sheet by name('Sheet1") 
dataset = [] 
for r in xrange(ws.nrows): 
col = [] 
for c in range(ws.ncols): 
col.append(ws.cell(r, c).value) 
dataset.append(col) 
from pprint import pprint 


pprint(dataset) 


2.3.3 工作 原理 


让 我 们 试 着 解释 一 下 xlrd 模块 使 用 的 简单 对 象 模型 。 在 最 上 层 是 一 
个 包含 一 个 或 多 个 工作 表 Cxlrd.sheet.Sheet) HTI (Python 类 








xlrd.book.Book) 。 每 个 工作 表 有 一 个 单元 格 对 象 Cxlrd.sheet.Cell) ， 我 
iit aA 
过 调用 open_workbook0 方 法 ， 我 们 从 文件 中 加 载 了 一 个 工作 短 ， 

Pius book 实例 。Book 实例 包含 了 一 个 工作 短 的 所 有 信息 ， 
如 工作 表单 。 通 过 调用 sheet_by_name() 方 法 可 以 访问 指定 的 工作 表 ， 如 
果 需 要 所 有 的 工作 表 ， 可 以 调用 sheets() 方 法 。sheets() 方 法 返回 一 个 
xlrd.sheet.Sheet 实例 的 列表 。xlrd.sheet.Sheet 类 有 行 和 列 属性 ， 我 们 能 通 
过 这 些 属性 来 指定 循环 的 范围 ， 并 通过 调用 cell0) 方 法 来 访问 工作 表 中 的 
每 个 特定 的 单元 格 。 虽 然 有 一 个 xrld.sheet.Cell 类 ， 但 并 不 需要 直接 使 用 
Be 

请 注意 ， 日 期 是 以 浮 点 数 而 不 是 以 某 个 日 期 类 型 存储 的 。 但 是 ， 
xhd — 模块 有 能 力 检查 数据 的 值 ， 并 推 朵 出 数据 值 实际 上 是 否 为 一 个 日 

这 样 ， 我 们 就 能 通过 检查 单元 格 类 型 来 得 到 Python date 对 象 。 如 
果 数 字 的 字符 串 像 日 期 ，xlrd 模块 将 返回 xlrd.XL_CELL_DATE 作 为 单 
元 格 类 型 。 这 里 用 一 段 代码 来 说 明 这 点 


from datetime import datetime 











from xlrd import open_workbook, xldate as tuple 


cell = sheet.cell(1, 0) 
print cell 
print cell.value 
print cell.ctype 
if cell.ctype == xlrd.XL CELL. DATE: 
date value = xldate as tuple(cell.value, book.datemode) 
print datetime(*date value) 
这 个 日 期 字段 还 有 些 问 题 。 因 此 ， 如 有 果 需 要 针对 日 期 做 大 量 的 工 
作 ， 请 参见 官方 文档 和 邮件 列表 。 


2.3.4 Zh FR Wi B 





xlrd 模块 的 一 个 非常 好 的 特性 是 它 能 按照 需要 仅 加 载 文件 的 部 分 内 
容 到 内 存 中 。open_workbook 方 法 有 一 个 on_demand 参 数 ， 在 调用 时 把 它 
置 为 True， 工 作 表 就 能 按 需 加 载 了 。 例 如 : 

book = open_workbook(‘large.xls', on_demand=True) 

本 节 没 有 提 到 Excel 文件 的 写 操作 。 一 部 分 原因 是 后 面 会 有 单独 的 
一 节 去 讲述 它 ， 另 一 部 分 原因 是 Excel 的 写 操作 需要 另 一 个 不 同 的 模块 
一 一 对 wt 来 完成 。 你 能 从 本 章 的 “导出 数据 到 JSON、CSV 和 Excel” 一 节 
获得 更 多 的 信息 。 

如 果 需 要 一 些 在 前 面 介绍 的 例子 和 模块 中 没有 涉及 的 特定 用 法 ， 
PyPi 上 有 一 个 操作 工作 表 的 其 他 一 些 Python 模块 的 列表 ， 也 许 能 对 你 有 
TH], WW |) http://pypi.python.org/pypi?:action=browse&c=377 . 
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2.4 从 定 宽 数据 文件 导 


事件 的 日 志文 件 和 基于 时 间 序 列 的 文件 是 数据 可 视 化 中 最 常见 的 数 
据 源 。 有 时 候 ， 可 以 以 制 表 符 分 陋 数 据 这 种 CSV 方 言 来 读 取 它 们 ， 但 有 
时 它们 不 是 通过 任何 特殊 字符 分 隔 的 。 实 际 上 ， 这 些 文件 中 的 字段 是 有 
固定 宽度 的 ， 我 们 能 通过 格式 来 匹配 并 提取 数据 。 

一 种 做 法 是 逐 行 读 取 文件 ， 然 后 用 字符 串 操 作 方 法 把 字符 串 分 制 成 
独立 的 部 分 。 这 种 做 法 比较 直接 ， 如 有 果 性 能 不 是 问题 的 话 可 以 作为 首 
126 

如 末 性 能 更 重要 ， 或 者 要 解析 的 文件 非常 大 《〈《 几 百 兆 字 节 ) ， 用 
Python 中 的 struct 模 块 Chttp://docs.python.org/library/struct.html) 能 提升 
性 能 ， 因 为 这 个 模块 是 用 C 语 言 而 不 是 Python 实现 的 。 


2.4.1 准备 工作 





为 struct 模 块 是 Python 标 准 库 的 一 部 分 ， 所 以 不 必 安 装 额 外 的 软件 
来 完成 本 节 的 内 容 。 


2.4.2 un pA. 


Te VE EAI Ac EBS, A AN E EB 
记录 。 样 本 数据 格式 如 下 : 


207152670 3984356804116 9532 
427053180 1466959270421 5338 
316700885 9726131532544 4920 


138359697 3286515244210 7400 
476953136 0921567802830 4214 
213420370 6459362591178 0546 


这 个 数据 集合 是 通过 代码 生成 的 ， 代 码 文件 ch02-generate_f_data.py 
可 以 在 本 章 的 代码 库 中 找到 。 

现在 可 以 读 取 数据 了 。 示 例 代 码 如 下 ， 步 骤 如 下 。 

1. 指 定 要 读 取 的 数据 文件 。 

2. 定 义 数 据 读 取 的 方式 。 

3. 逐 行 读 取 文件 并 根据 格式 把 每 行 解析 成 单独 的 数据 字段 。 

4. 按 单独 数据 字段 的 形式 打印 每 一 行 。 


import struct 





import string 
datafile = 'ch02-fixed-width-1M.data' 
# this is where we define how to 
# understand line of data from the file 
mask-'9s14s5s' 
with open(datafile, 'r') as f: 

for line in f: 

fields = struct.Struct(mask).unpack from(line) 


print "fields: ', [field.strip() for field in fields] 


2.4.3 TI Eg se 


可 以 用 head. more 或 者 类 似 的 Linux shell 命令 来 查看 文件 内 容 ， 
然后 根据 所 见 的 数据 文件 格式 定义 掩 码 格式 。 
字符 串 格 式 用 来 定义 要 提取 的 数据 的 期 望 显示 格 式 。 我 们 用 格式 字 


FTE MBER. AE, WREX 9s15s5s， 我 们 可 以 读 作 “9 个 
字符 宽度 的 字符 串 ， 跟 着 一 个 15 个 字符 宽度 的 字符 串 ， 再 跟 上 一 个 5 个 
字符 宽度 的 字符 串 。” 

一 般 来 说 ，c 定 义 为 字符 〈C 语 言 中 的 char 类 型 ) 或 者 长 度 为 1 的 字 
符 串 ，s 定 义 为 字符 串 (C 语 言 中 的 char[] 类 型 )，d 定 义 为 浮 点 数 (C 语 
言 中 的 double 类 型 ) ， 以 此 类 推 。 在 Python 官方 网 站 上 有 完整 的 对 应 
表 ， 参 见 http://docs.python.org/library/struct. html#format-characters 。 

然后 逐 行 读 取 文件 内 容 并 根据 指定 的 格式 解析 (通过 unpack_from 
方法 ) 每 一 行 。 因 为 在 字段 前 面 (或 者 后 面 ) 可 能 有 和 多余 的 空格 ， 用 
strip(0 方 法 可 以 去 掉 每 个 字段 的 前 导 和 后 导 空 格 。 

对 于 解 包 ， 可 以 使 用 struct.Struct 类 的 面向 对 象 (object-oriented,， 
OO) 的 方式 ， 但 也 可 以 像 下 面 的 代码 这 样 使 用 非 面 同 对 象 的 方式 : 

fields = struct.unpack_from(mask, line) 

两 种 方式 唯一 的 不 同 是 使 用 的 模式 。 如 果 想 用 相同 的 格式 化 掩 码 执 
行 更 多 的 操作 ， 面 向 对 象 的 方法 可 以 不 必 在 每 次 调用 时 声明 格式 。 而 
且 ， 它 让 我 们 有 能 力 在 将 来 继承 struct.Struct 类 ， 为 特定 需求 进行 扩展 或 
者 提供 额外 的 功能 。 























另 一 种 常见 的 平坦 数据 文件 (flat datafile) 格式 是 制 表 符 分 隔 的 文 
件 。 它 可 能 导出 目 Excel 文 件 ， 也 可 能 是 一 些 定制 软件 的 输出 。 

庆幸 的 是 ， 通 常 我们 可 以 按 与 CSV 文 件 几乎 相同 的 方式 来 读 取 这 种 
格式 的 文件 内 容 。 因 为 Python 的 csv 模 块 支持 的 方言 能 让 我 们 用 相同 的 原 
则 来 读 取 相似 文件 格式 的 变 体 一 一 其 中 一 种 就 是 制 表 符 分 割 格式 。 


2.5.1 准备 工作 








此 时 假定 我 们 已 经 知道 如 何 读 取 CSV 文 件 。 如 果 还 不 清楚 ， 请 先 参 
见 2.2“ 从 CSV 文 件 导 入 数据 ”一 节 。 


2.5.2 un p 


我 们 将 重用 2.2“ 从 CSV 文 件 寻 入 数据 ”一 节 中 的 代码 ， 在 这 里 只 需要 
改动 一 下 使 用 的 方言 。 
import CSV 
filename = 'ch02-data.tab' 
data = [] 
try: 
with open(filename) as f: 





reader = csv.reader(f, dialect=csv.excel_tab) 
header = reader.next() 
data = [row for row in reader] 


except CSV.Error as e: 


print "Error reading CSV file at line %s: %s" % (reader.line_num, e) 
sys.exit(-1) 
if header: 


print header 


for datarow in data: 


print datarow 


2.5.3 工作 原理 


除了 实例 化 csv 读 对 象 的 一 行 代码 不 同 ， 上 述 代码 和 在 “从 CSV X 
件 导入 数据 ”一 节 中 的 非常 相似 。 在 那 行 代码 中 ， 我 们 指定 dialect 参 数 为 


excel tab 方 言 。 


2.5.4 42g Wi B 





基于 CSV 格 式 读 取 数 据 的 方式 没有 办 法 处 理 有 “ 脏 数 据 ” 的 情况 。 换 
言 之 ， 如 有 果 有 几 行 不 是 仅 以 换行 符 结 尾 ， 而 是 有 多 人 有余 的 \《〈 制 表 符 ) tr 
记 ， 这 时 融 需 要 在 切 分 前 对 特殊 行 的 数据 进行 单独 清理 。ch02-data- 
dirty.tab 是 含有 “ 脏 数据 ”的 制 表 符 分 隔 的 文件 ， 下 面 的 示例 代码 在 读 取 
文件 数据 时 对 “ 脏 数据 ?进行 了 清理 : 

datafile = 'ch02-data-dirty.tab' 


with open(datafile, 'r') as f: 





for line in f: 
# remove next comment to see line before cleanup 
# print 'DIRTY: ', line.split(^t) 
# we remove any space in line start or end 


line = line.strip() 


# now we split the line by tab delimiter 
print line.split(‘\t’) 

RIER T A-RA FERIA AAEH split(\t) 方 法 。 

与 使 用 csv 模 块 的 方式 相 比 ，split0 方 法 的 优势 有 时 候 体现 在 : 仅仅 
通过 改变 方言 就 可 以 重用 相同 的 代码 来 读 取 数据 。 至 于 如 何 检测 方言 ， 
可 以 根据 文件 扩展 名 C .CSV 和 .tab) 或 者 其 他 一 些 方法 (比如 使 用 
csV.Sniffer 类 ) 来 判断 。 














本 节 将 展示 如 何 读 取 ISON 格式 的 数据 。 此 外 ， 我 们 将 会 使 用 一 个 
远程 数据 源 。 这 会 让 本 节 的 内 容 有 点 复杂 ， 但 同时 也 会 使 其 更 加 实用 ， 
因为 在 现实 世界 中 ， 我 们 会 更 多 地 遇 到 远程 数据 源 ， 而 不 是 本 地 数据 。 

JavaScript Object Notation (JSON) 作为 一 种 平台 无 关 的 格式 被 广 
泛 地 应 用 于 系统 间或 者 应 用 间 的 数据 交换 。 

本 文中 ， 资 源 是 我 们 可 以 读 取 的 任何 东西 ， 可 以 是 一 个 文件 或 者 一 
个 URL 端 点 〈 可 以 是 远程 进程 /程序 的 输出 ， 或 者 一 个 远程 静态 文 
TE) 。 简 言 之 ， 我 们 不 关心 谁 产生 了 数据 源 以 及 是 怎么 产生 的 ， 我 们 只 
需要 它 是 一 种 已 知 的 格式 ， 如 JSON。 


2.6.1 ;准备 工作 


开始 之 前 ， 需 要 安装 requests 模块 ， 并 确保 可 以 导入 到 我 们 的 虚拟 
环境 中 《〈 在 PYTHONPATH 中 ) 。 在 第 1 章 “ 准 备 工作 环境 ”中 ， 我 们 已 经 
安装 了 这 个 模块 。 

我 们 还 需要 能 够 连接 网 络 来 读 取 一 个 远程 数据 源 。 

















2.6.2 un He 


在 下 述 示例 代码 中 ， 我 们 读 取 并 解析 GitHub Chttp://github.com) 网 
站 的 最 近 活 动 时 间 表 ， 操 作 步 又 如 下 。 

1. 指 定 GitHub URL 来 读 取 JSON 格式 数据 。 

2. 使 用 requests 模 块 访问 指定 的 URL， 并 获取 内 容 。 

3. 读 取 内 容 并 将 之 转化 为 JSON 格 式 的 对 象 。 


4. 碗 代 访 问 JSON 对 象 ， 对 于 其 中 的 每 一 项 ， 读 取 每 个 代码 库 的 URL 
值 。 
import requests 
url = 'https://github.com/timeline.json' 
r = requests.get(url) 
json_obj = r.json() 
repos = set() 
for entry in json_obj: 
try: 
repos.add(entry['repository' |['url']) 
except KeyError as e: 
print "No key 96s. Skipping..." 96 (e) 
from pprint import pprint 


pprint(repos) 
2.6.3 工作 原理 


首先 ， 用 requests 模块 获取 远程 资源 。requests 模块 提供 了 简单 的 
API 来 定义 HTTP 谓 词 ， 我 们 只 需要 发 出 get(0) 方 法 调用 ， 这 非常 简单 明 
了 。 获 取 到 数据 和 请 求 元 数据 后 ， 把 它们 封装 到 Response 对 象 ， 以 供 
进一步 处 理 。 在 本 节 ， 我 们 只 对 Response.json(0) 方 法 感 兴趣 ， 这 个 方法 
可 以 读 取 Response.content 的 内 容 ， 把 它 解析 成 JSON 并 加 载 到 JSON 对 象 
"He 

MES TISON ZR, Be RRMA WA P. EFRA, T 
要 知道 数据 的 格式 。 可 以 用 自己 言 欢 的 浏览 器 或 者 命令 行 工 具 如 wget 或 
curl 打 开 JSON 数 据 源 来 一 探究 竟 。 

另 一 种 方式 是 在 IPython 中 获取 数据 ， 并 以 交互 的 方式 碍 看 输出 。 在 





IPython 中 用 命令 %run program_name.py 运行 程序 。 执 行 完 毕 后 会 得 到 程 
序 生成 的 所 有 变量 ， 可 以 使 用 %who 或 者 %whos 把 它们 列 出 来 。 

通过 上 述 方法 ， 我 们 了 解 了 JSON 数 据 的 结构 ， 并 能 够 看 到 哪些 是 
我 们 感 兴趣 的 部 分 。 





通过 entry['repository'] [ur] 就 得 到 了 最 近 更 新 的 库 中 的 URL 列 表 。 
通过 entry[Trepository' [um 可 以 得 到 实际 JSON 文 件 中 的 这 段 数 据 内 


3 


"repository" : { 
"url" : "https://github.com/ipython/ipython", 
15 


MÆ, RIIT HE 7EPythonfCfidrP Ug £i Ae RETI & key Be Ul 
对 应 的 。 


2.6.4 42g Wi B 


JSON 格式 (遵循 RFC 4627 规定 ， 参 见 http://tools.ietf.org/html/ 
rfc4627. html) 最 近 变 得 非常 流行 ， 因 为 它 比 XML 更 易 读 而 且 更 简洁 。 
因此 ， 在 传输 数据 所 需 的 语法 上 也 更 轻 量 。 因 为 JSON 来 目 JavaScript 
一 一 当今 大 多 数 富 互 联网 应 用 使 用 的 语言 ， 使 得 它 在 Web 应 用 领域 相当 
受 欢 迎 。 

Python 的 JSON 模块 的 功能 远 不 止 我 们 演示 的 这 些 ， 例 如 我 们 可 以 











特 化 基本 的 JSONEncodervJSONDecoder 类 来 把 Python 代码 转换 成 JSON 格 
式 。 经 典 的 例子 是 用 这 种 方法 将 Python 内 置 的 复杂 数据 类 型 变 成 JSON 
格式 。 

如 果 是 简单 的 定制 化 ， 束 不 必 派 生 JSONDecoder/JSONEncoder 类 ， 
因为 通过 设置 参数 就 可 以 解决 这 个 问题 。 

例如 ，json.loads0 会 把 浮 点 数 解析 成 Python 的 float 类 型 ， 在 大 多 数 
情况 下 这 都 是 没有 问题 的 。 不 过 有 时 候 ， 如 果 JSON 文 件 中 的 浮 点 值 代 
表 了 价格 ， 最 好 还 是 表示 成 十 进 制 。 我 们 可 以 告诉 json 解 析 器 把 浮 点 数 
转 为 十 进 制 。 例 如 ， 有 这 样 一 个 JSON 字 符 串 。 

jstring = '{"name":"prod1","price":12.50}' 

接着 是 下 面 两 行 代码 。 


from decimal import Decimal 














json.loads(jstring, parse_float=Decimal) 
上 面 两 行 代码 的 输出 如 下 。 


{u'name': u'prod1', u'price': Decimal('12.50')} 





然而 ， 在 做 数据 可 视 化 时 ， 我 们 通常 只 是 使 用 其 他 人 的 数据 ， 所 以 
导入 和 读 取 数据 是 主要 工作 。 然 而 ， 不 管 是 我 们 还 是 他 人 的 需要 ， 不 管 
是 现在 还 是 将 来 的 需要 ， 确 实 需要 把 产生 或 者 处 理 过 的 数据 导出 或 写 到 
某 个 地 方 。 

接 下 来 ， 我 们 将 演示 如 何 使 用 前 面 提 到 的 Python 模块 导入 、 导 出 和 
写 数据 到 JSON、CSV 和 XLSX 等 各 种 格式 。 

为 了 演示 的 需要 ， 我 们 将 使 用 “从 定 宽 数据 文件 导入 数据 ”一 节 预 先 
生成 的 数据 集合 。 








2.7.1 准备 工 


对 于 Excel 的 写 操作 部 分 ， 需 要 (在 虚拟 环境 中 ) 安装 xlwt 模 块 。 请 
执行 下 面 的 命令 : 
$ pip install xlwt 


2.7.2 un +E oR 


下 面 将 介绍 一 段 示例 代码 ， 它 包括 了 要 演示 的 所 有 格式 : CSV. 
JSON 和 XLSX。 程 序 的 主要 部 分 接收 输入 并 调用 合适 的 方法 对 数据 进 
行 转化 。 我 们 会 逐一 介绍 每 个 代码 段 ， 并 解释 它们 的 目的 。 

1. 导 入 需要 的 模块 。 

import os 

import sys 


import argparse 


try: 
import cStringIO as StringlO 
except: 
import StringIO 
import struct 
import json 
import csv 
2. 然 后 ， 定 义 合 适 的 读 写 数据 的 方法 。 
def import_data(import_file): 
Imports data from import_file. 
Expects to find fixed width row 
Sample row: 161322597 0386544351896 0042 
mask = '9s14s5s' 
data = [] 
with open(import file, 'r') as f: 
for line in f: 
# unpack line to tuple 
fields = struct.Struct(mask).unpack from(line) 
# strip any whitespace for each field 
# pack everything in a list and add to full dataset 
data.append(list([f.strip() for f in fields])) 
return data 
def write data(data, export format): 
"Dispatches call to a specific transformer and returns data set. 


Exception is xIsx where we have to save data in a file. 


"n 


if export. format == 'csv': 
return write csv(data) 
elif export. format == 'json": 
return write json(data) 
elif export. format == 'xlsx": 
return write xlsx(data) 
else: 
raise Exception("Illegal format defined") 
3. 为 每 一 种 数据 格式 (CSV、JSON 和 XLSX) 分 别 指定 各 自 的 实现 
方法 。 
def write_csv(data): 
"Transforms data into csv. Returns csv as string. 
# Using this to simulate file IO, 
# as csv can only write to files. 
f = StringIO.StringIO() 
writer = csv.writer(f) 
for row in data: 
writer.writerow(row) 
# Get the content of the file-like object 
return f.getvalue() 
def write json(data): 
"Transforms data into json.Very straightforward. 
j = json.dumps(data) 


return j 


def write xlsx(data): 
"Writes data into xlsx file. 
from xlwt import Workbook 
book = Workbook() 
sheet1 = book.add sheet("Sheet 1") 
row = 0 
for line in data: 
col = 0 
for datum in line: 
print datum 
sheet1.write(row, col, datum) 
col += 1 
row += 1 
# We have hard limit here of 65535 rows 
# that we are able to save in spreadsheet. 
if row > 65535: 
print >> sys.stderr, "Hit limit of # of rows in one sheet (65535)." 
break 
# XLS is special case where we have to 
# save the file and just return 0 
f = StringIO.StringIO() 
book.save(f) 
return f.getvalue() 
4. 最 后 ， 完 成 main 入 口 点 代码 ， 解 析 命 令 行 参数 中 传 入 的 文件 路 
径 ， 导 入 数据 并 导出 成 要 求 的 格式 。 


Y 





Y 


if name --' main * 


# parse input arguments 

parser = argparse.ArgumentParser() 

parser.add_argument("import_file", help="Path to a fixed-width data 

file.") 
parser.add_argument("export_format", help="Export format: json, 
csv, xlsx.") 

args = parser.parse_args() 

if args.import_file is None: 
print >> sys.stderr, "You myst specify path to import from." 
sys.exit(1) 

if args.export_format not in ('csv','json','xlsx"): 
print >> sys.stderr, "You must provide valid export file format." 
Sys.exit(1) 

# verify given path is accesible file 

if not os.path.isfile(args.import file): 
print >> sys.stderr, "Given path is not a file:%s"% args.import. file 
Sys.exit(1) 

# read from formated fixed-width file 

data = import. data(args.import. file) 

# export data to specified format 

#to make this Unix-lixe pipe-able 

# we just print to stdout 


print write data(data, args.export format) 


2.7.3 LE Eg HE 


概括 地 讲 ， 首 先导 入 定 宽 数 据 集合 〈 在 2.4“ 从 定 宽 数 据 文 件 导 入 数 





据 ” 一 节 已 定义 ) ， 接 着 导出 到 stdout， 然 后 可 以 把 它 存 到 文件 ， 或 者 作 
为 另 一 个 程序 的 输入 。 

首先 ， 从 命令 行 执行 程序 ， 给 定 两 个 必 选 参数 : 输入 文件 名 和 导出 
文件 格式 (JSON、CSV 和 XLSX) 。 

成 功 解析 这 些 参数 后 ， 把 输入 文件 分 派 给 。 import_data() 方 法 。 然 
后 ， 访 方法 返回 Python 数据 结构 《列表 的 列表 ) ， 我 们 就 可 以 方便 地 对 
其 进行 操作 并 得 到 合适 的 输出 格式 了 。 

在 write_data() 方 法 中 ， 我 们 只 是 把 请 求 路 由 给 合适 的 方法 《比如 
write _csv() 方 法 ) . 

在 CSV 中 ， 我 们 得 到 一 个 csvwriter0 实 例 ， 然 后 把 迭代 过 的 每 一 
行 数据 写 到 里 面 。 

因为 将 来 要 把 输出 从 我 们 的 程序 重 定 同 到 另 一 个 程序 〈 或 者 仅仅 是 
对 文件 执行 cat 操 作 ) ， 所 以 只 是 简单 返回 给 定 的 字符 串 。 

json 模 块 提供 的 dump0) 方 法 可 以 很 轻松 地 读 取 Python 的 数据 结构 ， 
所 以 在 这 个 例子 中 JSON 的 导出 操作 并 不 需要 演示 。 人 至 于 CSV， 我 们 只 
是 简单 地 返回 结果 并 把 其 输出 给 stdout。 

Excel 导 出 需要 比较 多 的 代码 ， 因 为 需要 创建 一 个 更 加 复杂 的 Excel 
工作 夭 和 工作 单 的 模型 来 存放 数据 。 接 下 来 的 工作 和 前 面 迭 代 方 式 相 
似 ， 有 两 个 循环 ， 外 部 的 循环 授 历数 据 源 集合 的 每 一 行 ， 内 部 的 循环 这 
历 给 定 行 的 每 一 个 字段 。 

最 后 , 把 Book ”实例 保存 成 类 文件 流 ， 这 样式 可 以 把 它 返回 给 
stdout。 然 后 ， 既 可 以 把 内 容 恋 取 到 文件 中 ， 也 可 以 让 Web service 来 消 
WE 











2.7.4 th FR Wi B 


当然 ， 这 仅仅 是 能 叶 出 的 数据 格式 的 一 个 小 小 的 集合 。 如 果 想 支持 





更 多 的 格式 ， 改 动 起 来 也 是 相当 简单 的 。 基 本 上 需要 改动 两 个 地 方 ， 导 
入 和 导出 方法 。 如 果 想 导入 一 种 新 的 数据 源 ， 就 需要 改动 导入 方法 。 

如 有 果 想 添加 一 种 新 的 导出 格式 ， 首 先 需 要 添加 方法 来 返回 一 个 格式 
化 了 的 数据 流 。 然 后 ， 更 新 write_data() 方 法 ， 添 加 新 的 elif 分 支 来 让 它 
调用 新 的 write_* 方 法 。 

为 一 件 能 做 的 事情 就 是 把 上 述 代 码 打 成 一 个 Python 包 ， 这 样 就 可 以 
在 更 多 项 目 上 重用 它 了 。 如 果 那 样 做 的 话 ， 我 们 可 以 让 数据 的 导入 更 灵 
活 些 ， 或 者 为 导入 添加 更 多 的 配置 功能 。 





2.8 MŽ d 


通常 情况 是 ， 数 据 分 析 和 可 视 化 工作 处 在 数据 管道 的 消费 端 。 我 们 
更 经 常 使 用 已 经 生成 的 数据 ， 而 不 是 自己 生成 数据 。 例 如 ， 一 个 现代 应 
用 程序 在 关系 数据 库 〈 或 其 他 数据 库 ) 中 存储 了 不 同 的 数据 集合 ， 我 们 
可 以 使 用 这 些 数据 来 生成 漂亮 的 图 表 。 

本 节 将 展示 在 Python 中 如 何 使 用 SQL drivers 访问 数据 。 

本 节 的 示例 采用 SQLite 数 据 库 ， 因 为 它 设 置 起 来 需要 的 工作 量 最 
少 ， 同 时 和 大 多 数 其 他 基于 SQL 的 数据 库 引 擎 (MySQL 和 PostgreSQL ) 
的 接口 相似 。 不 过 ， 各 种 数据 库 引 擎 文 持 的 SQL 方言 多 少 有 些 不 同 。 这 
个 例子 使 用 简单 的 SQL 语言 ， 因 此 在 大 多 数 和 常用 的 SQL 数据 库 引 警 上 应 
该 都 是 可 以 重用 的 。 





2.8.1 准备 工作 








在 继续 本 市 下 面 的 内 容 之 前 ， 首 先 需 要 安装 SQLite 库 。 

$ sudo apt-get install sqlite3 

Python 默认 文 持 SQLite， 因 此 不 需要 再 安装 任何 与 Python 相关 的 东 
西 。 可 以 在 IPython 中 执行 下 述 代码 来 验证 一 下 是 否 都 已 经 安装 好 。 

import sqlite3 








sqlite3.version 
sqlite3.sqlite_version 

我 们 会 得 到 类 似 下 面 的 输出 。 
In [1]: import sqlite3 


In [2]: sqlite3.version 


Out[2]: '2.6.0' 

In [3]: sqlite3.sqlite_version 

Out[3]: '3.6.22' 

这 里 ，sqlite3.version 返 回 Python 的 sqlite3 模 块 的 版 本 号 ， 
sqlite_version 返 回 系统 SQLite 库 的 版 本 。 


2.8.2 un 步骤 





为 了 能 够 从 数据 库 读 取 数 据 ， 需 要 以 下 步 又。 

1. 连 接 数 据 库 引擎 〈 或 者 是 SQLite 文 件 ) 。 

2. 在 选择 的 表 上 执行 查询 操作 。 

3. 读 取 从 数据 库 引 擎 返回 的 结果 。 

本 书 不 会 讲 怎样 使 用 SQL， 因 为 有 很 多 专门 关于 这 个 话题 的 书 。 但 
为 了 能 让 大 家 明白 ， 我 们 会 解释 下 这 个 代码 例子 中 的 SQL 碍 询 语句 。 

SELECT ID, Name, Population FROM City ORDER BY Population 
DESC LIMIT 1000 

这 条 语句 从 City 表 中 查询 了 ID、Name 和 Population 等 列 (字段 ) 的 
fi. ORDER BY 告诉 数据 库 引 擎 按照 Population 列 对 数据 进行 排序 ， 同 
时 DESC 指 定 按 降序 排列 。LIMIT 仪 允许 我 们 获取 查找 到 的 数据 的 前 
1000 条 。 

这 个 例子 中 ， 我 们 将 使 用 world.sql 示例 中 的 表 。 这 个 表 包 含 了 全 
世界 的 城市 名 和 人 口 ， 有 超过 5000 条 的 数据 。 

这 个 表 如 图 2-1 所 示 。 











Name Population 


Mumbai (Bombay) 
Seoul 

São Paulo 
Shanghai 
Jakarta 

Karachi 
Istanbul 

Ciudad de México 
Moscow 

New York 

Tokyo 

Peking 

London 

Delhi 

Cairo 

Teheran 

Lima 

Chongqing 
Bangkok 


9981619 
9968485 
9696300 
9604900 
9269265 
8787958 
8591309 
8389200 
8008278 
7980230 
7472000 
7285000 
7206704 
6789479 
6758845 
6464693 
6351600 
6320174 





Santafé de Bogota 
图 2-1 
首先 需要 把 这 个 SQL 文件 导入 到 SQLite 数 据 库 中 ， 代 码 如 下 。 


import sqlite3 


6260862 


import sys 

if len(sys.argv) < 2: 
print "Error: You must supply at least SQL script." 
print "Usage: 96s table.db ./sql-dump.sql" 96 (sys.argv[0]) 
sys.exit(1) 

script path = sys.argv[1] 

if len(sys.argv) == 3: 


db = sys.argv[2] 
else: 
# if DB is not defined 
# create memory database 
db = ":memory:" 
try: 
con = sqlite3.connect(db) 
with con: 
cur = con.cursor() 
with open(script_path,'rb’) as f: 
cur.executescript(f.read()) 
except sqlite3.Error as err: 
print "Error occured: 96s" 96 err 
这 段 代 码 会 读 取 SQL 文件 中 的 SQL 语句 ， 然 后 在 打开 的 SQLite db 
文件 上 执行 。 如 采 不 指定 db 文件 名 ，SQLite 会 在 内 存 中 创建 一 个 数据 
库 ， 然 后 逐条 执行 语句 。 
如 果 遇 到 了 错误 ， 程 序 会 捕获 异 弟 并 把 错误 信息 打印 给 用 户 。 
在 把 数据 导入 到 数据 库 之 后 ， 束 能 碍 询 数据 并 进行 一 些 操作 了 。 以 
下 是 从 数据 库 文 件 读 取 数 据 的 代码 。 
import sqlite3 
import sys 
if len(sys.argv) != 2: 
print "Please specify database file." 
sys.exit(1) 
db = sys.argv[1] 
try: 
con = sqlite3.connect(db) 


with con: 
cur = con.cursor() 
query = 'SELECT ID, Name, Population FROM City ORDER BY 
Population DESC LIMIT 1000' 
con.text_factory = str 
cur.execute(query) 
resultset = cur.fetchall() 
# extract column names 
col_names = [cn[0] for cn in cur.description] 
print "9610s 9630s 9610s" 96 tuple(col names) 
print "="*(10+1+30+1+10) 
for row in resultset: 
print "9610s 9630s 9610s" 96 row 
except sqlite3.Error as err: 
print "[ERROR]:", err 


2.8.3 工作 原理 


首先 ， 检 和 碍 用 户 是 否 提供 了 数据 库 文件 路 径 。 这 只 是 一 个 快速 的 检 
得 ， 确 保 我 们 能 执行 剩 下 的 代码 。 

接 下 来 洽 试 连接 数据 库 。 如 果 失 败 了 ， 程 序 捕获 到 sqlite3.Error 并 把 
它 打 印 给 用 户 。 

如 果 连 接 成 功 ， 我 们 通过 con.cursorO 得 到 一 个 游标 。 游 标 与 迭代 器 
类 似 ， 能 让 我 们 过 历数 据 库 返回 的 结果 集中 的 记录 。 

我 们 定义 了 一 个 查询 操作 ， 与 数据 库 建 并 连接 后 ， 执 行 查 询 请 求 并 
通过 cur.fetchall0) 得 到 结果 和 集 。 如 果 只 想 获 取 一 条 结果 ， 可 以 用 
fetchone(). 








在 cur.description 上 执行 列表 解析 操作 来 得 到 数据 库 的 列 名 。 
description 是 一 个 只 读 属性 ， 包 含 了 很 多 的 信息 。 对 每 一 列 的 信息 都 有 
一 个 7 个 元 素 的 元 组 ， 这 里 只 用 到 列 名 ， 所 以 仅 获得 每 个 元 组 的 第 一 个 
TUR e 
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结果 集 并 按照 类 似 的 方式 打印 出 每 一 行 。 








2.8.4 Zh T Wi B 





数据 库 是 当今 最 常见 的 数据 源 。 在 本 小 节 的 介绍 中 ， 我 们 没 办 法 面 
面 俱 到 ， 但 建议 你 看 看 下 面 这 些 内 容 。 

如 果 想 查找 数据 库 操作 方面 的 知识 ， 官 方 Python 文档 是 首选 。 最 
常见 的 数据 库 是 开源 数据 库 ， 如 MySQL、PostgreSQL 和 SQLite。 数 据 库 
领域 的 另 一 部 分 是 企业 数据 库 系 统 ， 如 MS SQL. Oracle 和 Sybase. 
Python ”支持 大 部 分 的 数据 库 ， 而 且 有 抽象 的 接口 。 所 以 如 果 数 据 库 变 
了 ， 不 需要 改动 你 的 程序 。 但 可 能 需要 一 些小 改动 ， 这 取决 于 程序 是 否 
使 用 了 特定 数据 库 系 统 的 特性 。 例 如 ，Oracle 文 持 一 种 专门 的 语言 
PL/SQL， 它 不 是 标准 的 SQL。 如 果 把 数据 库 从 Oracle 变 成 MS SQL， 有 
些 地 方 就 不 工作 了 。 类 似 的 ，SQLite 不 支持 MySQL 数 据 类 型 或 者 数据 
库 引 擎 类 型 (MyISAM 和 InnoDB) 的 特性 。 这 些 事 有 些 烦人 ， 但 让 代 
码 遵循 标准 SQL Chttp://en.wikipedia.org/wiki/SQL:2011) 会 让 其 具备 数 
据 库 系 统 间 的 可 移植 性 。 








2.9 清理 异 党 什 


本 节 描 述 如 何 处 理 来 自 真 实 世 界 的 数据 集合 ， 并 介绍 在 做 可 视 化 前 
如 何 对 数据 进行 清理 。 

我 们 会 演示 一 些 不 同 的 技巧 ， 但 是 它们 有 一 个 共同 的 目的 ， 就 是 清 
理 数据 。 

然而 ， 清 理 的 工作 不 应 该 全 部 被 自动 化 。 因 为 在 应 用 任何 健壮 的 现 
代 算 法 来 清理 数据 之 前 ， 我 们 需要 了 解 给 定 的 数据 ， 需 要 知道 异常 值 山 
(outlier) 是 什么 ， 并 且 要 明白 展示 什么 数据 。 但 是 ， 这 些 内 容 在 一 节 
的 内 容 中 没有 办 法 都 讲 清楚 ， 因 为 它 依 赖 很 多 方面 ， 如 统计 学 、 领 域 知 
识 和 一 双 熙 眼 〈 然 后 是 一 点 运气 ) 。 


2.9.1 准备 工作 








我 们 将 使 用 已 经 熟悉 的 Python 标准 模块 ， 不 需要 额外 安装 软件 。 

在 本 节 中 ， 我 们 将 介绍 一 个 新 名 词 一 -MAD。 在 统计 学 上 ， 中 位 
数 绝对 偏差 (Median absolute deviation, MAD) 是 用 来 描述 单 变 量 〈 包 
含 一 个 变量 ) 样本 在 定量 数据 中 可 变性 的 一 种 标准 。 它 第 用 来 度量 统计 
分 布 ， 因 为 它 会 沙 在 一 组 稳健 统计 数据 中 ， 因 此 对 异常 值 有 抵抗 能 








2.9.2 PEE UE 
下 例 展示 了 如 何 用 MAD 来 检测 数据 中 的 异常 值 。 下 面 是 操作 步 


1. 生 成 0~1 之 间 的 随机 数据 (normally distributed random data) 。 
2. 加 入 一 些 异常 值 。 


3. 用 is_outlier() 方 法 检测 异常 值 。 
4. 绘 制 出 两 个 数据 集合 (x 和 filtered〉 的 图 表 ， 观 察 它们 的 区 别 。 
import numpy as np 
import matplotlib.pyplot as plt 
def is_outlier(points, threshold=3.5): 
Returns a boolean array with True if points are outliers and False 
otherwise. 
Data points with a modified z-score greater than this 
# value will be classified as outliers. 
# transform into vector 
if len(points.shape) == 1: 
points = points[:,None] 
# compute median value 
median = np.median(points, axis=0) 
# compute diff sums along the axis 
diff = np.sum((points - median)**2, axis=-1) 
diff = np.sqrt(diff) 
# compute MAD 
med_abs_deviation = np.median(diff) 
# compute modified Z-score 
# http://www. itl.nist.gov/div898/handbook/eda/section4/eda43.htm# 
# Iglewicz 
modified_z_score = 0.6745 * diff / med_abs_deviation 
# return a mask for each outlier 


return modified_z score > threshold 


# Random data 

X = np.random.random(100) 

# histogram buckets 

buckets = 50 

# Add in a few outliers 

x 7 np.r [x, -49, 95, 100, -100] 

# Keep valid data points 

# Note here that 

# "~" is logical NOT on boolean numpy arrays 

filtered = x[~~is_outlier(x)] 

# plot histograms 

plt.figureQ) 

plt.subplot(211) 

plt.hist(x, buckets) 

plt.xlabel('Raw") 

plt.subplot(212) 

plt.hist(filtered, buckets) 

plt.xlabel('Cleaned') 

plt.show() 

注意 ， 在 NumPy 中 , “一 ”操作 符 极 重 载 为 一 个 逻辑 操作 符 ， 作 用 在 
布尔 数组 上 时 为 取 非 操作 。 举 个 例子 ， 在 pylab 模 式 下 局 动 IPython。 

$ ipython -pylab 

得 到 结果 如 下 。 

In [1]: ~numpy.array(False) 

Out[1]: True 

如 图 2-2 所 示 有 两 个 不 同 的 直方 图 ， 第 一 幅 图 除了 一 个 最 大 的 异常 
值 之 外 什么 都 没有 ， 第 二 幅 图 中 因为 吻 除 挥 了 异常 值 ， 显 示 了 多 样 化 的 
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图 2-2 

另 一 种 识别 异常 值 的 方法 是 通过 人 有 眼 检查 数据 。 我 们 可 以 创建 散 点 
图 ， 这 样 能 轻易 地 看 到 偏离 徐 中 心 的 值 ， 也 可 以 绘制 一 个 箱 线 图 (box 
plot〉。 这 样 就 将 显示 出 中 值 、 上 四 分 位 数 和 下 四 分 位 数 ， 以 及 远离 箱 
体 的 异常 值 点 。 

箱 体 从 数据 的 低 四 分 位 数 延伸 到 高 四 分 位 数 ， 在 中 值 处 有 一 条 线 。 
箱 体 延伸 出 的 箱 须 (whiskers〉 显 示 了 数据 的 范围 。 超 出 箱 须 末端 的 点 
就 是 异常 值 。 

下 面 是 一 段 示 例 代 码 。 


from pylab import * 








# fake up some data 


Spread= rand(50) * 100 

center = ones(25) * 50 

# generate some outliers high and low 

flier_high = rand(10) * 100 + 100 

flier_low = rand(10) * -100 

# merge generated data set 

data = concatenate((spread, center, flier_high, flier_low), 0) 
subplot(311) 

# basic plot 

# 'gx' defining the outlier plotting properties 
boxplot(data, 0, 'gx") 

# compare this with similar scatter plot 

subplot(312) 

spread 1 = concatenate((spread, flier high, flier low), 0) 
center 1 = ones(70) * 25 

scatter(center 1, spread 1) 

xlim([0, 50]) 

# and with another that is more appropriate for 

# scatter plot 

subplot(313) 

center 2 = rand(70) * 50 

scatter(center 2, spread 1) 

xlim([0, 50) 

show() 

如 图 2-3 所 示 ， 看 到 由 x 形状 标记 标示 出 的 异常 值 。 





图 2-3 
第 二 幅 图 以 散 点 图 的 形式 显示 了 相似 的 数据 集合 。 因 为 数据 的 X 轴 








坐标 值 都 是 25， 上 所 以 看 起 来 不 是 很 直观 。 另 外 我 们 无 法 在 图 上 区 分 出 负 
同 异 常 值 ( inlier ) 和正 癌 异常 值 (outlier) 。 

在 第 三 幅 图 中 ， 在 X 轴 上 生成 的 值 分 布 在 0 一 50 的 范围 内 ， 能 更 容 
易 看 出 值 与 值 间 的 不 同 ， 也 能 够 在 Y 轴 上 看 出 哪些 值 是 异常 值 。 

在 下 面 的 代码 示例 中 ， 我 们 将 看 到 相同 的 数据 《在 本 例 中 是 均匀 分 
布 的 ) 在 不 同 的 情况 下 看 起 来 会 截然 不 同 ， 甚 至 有 时 欺骗 性 地 传递 了 一 
些 错误 的 信息 。 

# generate uniform data points 

x = 1e6*rand(1000) 

y = rand(1000) 








figure() 

# create first subplot 
subplot(211) 

# make scatter plot 

scatter(x, y) 

# limit x axis 

xlim(1e-6, 1e6) 

# create second subplot 
subplot(212) 

# make scatter plot 
scatter(x,y) 

# but make x axis logarithmic 
xscale(‘log') 

# set same x axis limit 
xlim(1e-6, 1e6) 

show() 

如 图 2-4 所 示 是 输出 的 结果 。 


3 d 


ee ^, ot We ean 


200000 400000 600000 800000 1000000 


0.2 

10" 310" 10° I” Ww” 10° 10° 10° 10^ a a 

图 2-4 

如 果 数 据 集合 有 缺失 值 (missing value) 怎么 办 ? 可 以 用 NumPy 加 
载 器 来 补偿 缺失 值 ， 或 者 可 以 写 代码 来 把 一 些 值 蕉 换 成 我 们 需要 的 值 ， 
以 供 进一步 操作 。 

假如 我 们 想 把 数据 集合 标记 在 一 张 美国 地 图 上 ， 在 数据 集合 中 可 能 
有 一 些 州 名 是 不 一 致 的 。 例 如 ，OH、Ohio、OHIO、US-OH 和 OH-USA 
都 代表 美国 的 Ohio 州 。 在 这 种 情况 下 ， 我 们 必须 把 它们 加 载 到 Microsoft 
Excel 或 者 OpenOffice.org Calc 中 ， 对 数据 集合 进行 手动 检查 。 有 时 非 
第 简单 ， 只 需要 用 Python 把 所 有 行 打印 出 来 就 可 以 看 出 来 。 如 有 果 文 件 是 
CSV 文 件 或 者 类 CSV 文 件 ， 可 以 用 任何 一 种 文本 编辑 器 打开 它 ， 并 直接 
检查 里 面 的 数据 。 

在 清楚 了 数据 的 内 容 之 后 ， 可 以 写 Python 代 人 码 来 对 相似 的 值 进 行 分 

















组 ， 并 用 统一 的 值 进行 蔡 换 ， 以 保证 将 来 数据 处 理 的 一 致 性 。 通 第 的 做 
法 是 ， 用 readlines0) 方 法 读 取 文 件 的 所 有 行 ， 并 用 标准 Python 字符 串 操 
作 方 法 进行 蔡 换 操 作 。 


2.9.3 补充 说 有 


有 一 些 商 业 的 和 非 商 业 的 产品 〈 如 OpenRefine， 参 见 
https://github.com/ OpenRefine) ， 提 供 了 针对 实时 “ 脏 ” 数 据 集合 的 一 些 
自动 化 处 理 服务 。 

即便 这 样 ， 清 理 异常 值 的 过 程 还 是 需要 人 工 参 与 的 。 人 工 参 与 的 多 
少 取决 于 数据 的 噪声 程度 和 对 数据 的 理解 程度 。 

如 果 想 学 习 更 多 关于 异常 值 清理 和 常规 数据 清理 的 知识 ， 可 以 看 一 
下 概率 模型 (statistical models) 和 采样 理论 (sampling theory) 。 





2.10 ix: FRR 





Python 非常 擅长 处 理 文件 或 类 文件 对 象 的 读 写 。 例 如 ， 如 果 你 想 加 
载 一 个 几 百 MB 的 大 文件 ， 假 如 你 有 一 个 至 少 2GB 内 存 的 现代 计算 机 ， 
Python ”处 理 起 来 也 不 会 有 任何 问题 。 因 为 它 不 会 一 次 性 地 加 载 所 有 内 
容 ， 而 是 聪明 地 按照 需要 来 加 载 。 

即使 对 于 相当 大 的 文件 ， 做 一 些 像 下 面 代码 这 样 简 单 的 操作 也 是 很 


with open(/tmp/my_big file', 'r') as bigfile: 
for line in bigfile: 
# line based operation, like 'print line' 

但 是 如 果 想 跳 到 文件 中 的 某 一 个 特定 位 置 ， 或 者 执行 一 些 非 顺 序 的 
读 操 作 ， 我 们 需要 手工 写 代码 来 调用 一 些 对 大 多 数 用 户 都 足够 灵活 的 IO 
方法 ， 如 seek0、tell0、read0 和 nextO0。 这 些 方法 大 多 数 仅 仅 是 绑 定 到 了 
C 实 现 上 《根据 操作 系统 特定 的 实现 ) ， 因 此 运行 会 非常 快 ， 但 是 根据 
操作 系统 的 不 同 ， 方 法 的 表现 会 有 所 不 同 。 


2.10.1 E (ED TE 


有 时 大 文件 的 处 理 可 以 按 文件 块 进行 ， 这 取决 于 我 们 的 目的 是 什 
么 。 例 如 ， 可 以 读 取 1000 行 ， 然 后 用 Python 标准 的 基于 从 代 需 的 方法 进 
行 处 理 ， 代 码 如 下 。 

import sys 

filename = sys.argv[1] # must pass valid file name 


with open(filename, 'rb') as hugefile: 


chunksize = 1000 
readable =" 
# if you want to stop after certain number of blocks 
# put condition in the while 
while hugefile: 
# if you want to start not from 1st byte 
# do a hugefile.seek(skipbytes) to skip 
# skipbytes of bytes from the file start 
start = hugefile.tell() 
print "starting at:", start 
file block =" # holds chunk size of lines 
for in xrange(start, start + chunksize): 
line - hugefile.next() 
file block = file block + line 
print 'file block', type(file block), file block 
readable = readable + file block 
# tell where are we in file 
# file IO is usually buffered so tell() 
# will not be precise for every read. 
stop = hugefile.tell() 
print 'readable', type(readable), readable 
print reading bytes from 96s to %s' % (start, stop) 
print 'read bytes total:', len(readable) 
# if you want to pause read between chucks 
# uncomment following line 
# raw input() 


在 Python 命令 行 解释 器 中 调用 上 面 的 代码 ， 给 定 文件 名 作为 第 一 个 


参数 。 


$ python ch02-chunk-read.py myhugefile.dat 


2.10.2 工作 原理 


我 们 硕 望 能 够 谈 取 成 块 的 文件 行 并 进行 处 理 ， 而 不 必 把 整个 文件 读 
取 到 内 存 中 。 

首先 ， 打 开 文 件 ， 在 for 循环 内 部 读 取 文 件 行 。 在 文件 中 的 移动 是 
通过 在 文件 对 象 上 调用 next() 来 完成 的 。 这 个 方法 读 取 文件 中 的 一 行 ， 
然后 把 文件 指针 移 到 下 一 行 。 为 了 简化 示例 代码 ， 我 们 只 是 把 file_block 
加 到 输出 变量 readable 上 ， 没 有 进行 任何 处 理 。 

在 执行 过 程 中 的 一 些 打 印 操作 是 为 了 说 明 某 些 变 量 的 当前 状态 。 

while 循 环 中 的 最 后 一 行 注释 代码 是 raw_inputO0。 如 果 去 掉 注 释 的 
话 ， 就 可 以 输出 在 这 一 句 之 前 打印 的 文件 行 ， 并 暂停 程序 的 执行 。 








2.10.3 补充 说 日 


当然 ， 本 节 介 绍 的 只 是 读 取 大 文件 的 众多 方法 中 的 一 种 。 其 他 方法 
可 能 会 引入 一 些 特定 的 Python 库 或 C 库 ， 但 这 完全 取决 于 我 们 要 对 数据 
做 什么 ， 以 及 如 何 操作 数据 。 

并 行 方 法 如 MapReduce 范 式 最 近 非 常 流行 ， 因 为 它 能 让 我 们 以 低 成 
本 获得 更 大 的 处 理 能 力 和 内 存 空间 。 

多 进程 处 理 (multiprocessing) 有 时 也 是 一 个 可 行 的 方法 。Python 
针对 创建 和 管理 线程 提供 了 很 好 的 库 文 持 ， 如 multiprocessing、threading 
和 thread。 

如 采 项 目 中 会 重复 地 处 理 大 文件 ， 我 们 建议 建立 自己 的 数据 管道 ， 
这 样 每 次 需要 数据 以 特定 形式 输出 时 ， 不 必 再 找到 数据 源 进行 手动 处 
理 。 




















如 采 数 据 是 来 自 一 个 连续 的 数据 源 呢 ? 如 条 需 要 读 取 连续 数据 呢 ? 
接 下 来 ， 本 市 将 介绍 一 个 适用 于 许多 真实 场景 的 简单 解决 方案 。 然 而 它 
并 不 是 通用 的 ， 需 要 针对 个 人 应 用 中 的 特殊 情况 进行 调整 。 








2.11.1 EF TE 


FEAT, BRA ÉRIC UAT SER “PS Scr EEC FE, FRE 
出 打印 出 来 。 我 们 将 使 用 普通 的 Python 模块 来 完成 它 ， 代 码 如 下 。 
import time 
import os 
import sys 
if len(sys.argv) != 2: 
print >> sys.stderr, "Please specify filename to read" 
filename = sys.argv[1] 
if not os.path.isfile(filename): 
print >> sys.stderr, "Given file: \"%s\" is not a file" % filename 
with open(filename,'r’) as f: 
# Move to the end of file 
filesize = os.stat(filename)[6] 
f.seek(filesize) 
# endlessly loop 
while True: 
where = f.tell() 


# try reading a line 
line = f.readline() 
# if empty, go back 
if not line: 
time.sleep(1) 
f.seek(where) 
else: 
# , at the end prevents print to add newline, as readline() 
# already read that. 


print line, 


2.11.2 工作 原理 


代码 的 核心 部 分 在 while True: 循 环 中 。 这 个 循环 永远 不 会 停止 〈 除 
非 在 键盘 上 键入 Ctrl+C 来 中 断 它 ) 。 首 先 ， 将 文件 指针 移动 到 文件 末 
尾 ， 然 后 试 着 读 取 文件 中 的 一 行 。 如 果 没 有 读 出 内 容 ， 意 味 着 在 用 
seek() 方 法 检查 之 后 文件 中 没有 添加 内 容 。 就 这 样 ， 等 竺 一 秒 然后 重 
试 。 














如 果 读 到 了 一 行内 容 ， 就 把 它 打 印 出 来 ， 因 为 文件 行 末尾 已 经 有 换 
行 符 ， 在 打印 时 不 需要 再 癌 末 尾 添加 换行 符 。 


2.11.3 补充 说 日 


我 们 可 能 想 读 取 最 后 的 n 行 ， 这 就 要 把 文件 指针 移动 到 文件 末尾 前 
的 某 个 地 方 。 可 以 通过 file.seek(filesize — N * avg_line_len) 把 文件 指针 移 
到 那里 。 这 里 的 avg_line_len 应 该 是 近似 的 平均 行 长 度 〈 大 约 1024) 。 然 
后 ， 可 以 用 readlines() 从 那个 点 开始 读 文 件 行 ， 然 后 打印 出 列表 中 的 [-N] 
行 。 


本 例 中 的 概念 可 以 用 在 许多 解决 方案 上 。 例 如 ， 如 果 输 入 是 一 个 类 
文件 对 象 或 者 一 个 远程 HTTP 资源， 就 可 以 从 远程 服务 读 取 输入 信息 ， 
并 持续 地 解析 它 ， 然 后 实时 地 更 新 图 表 ， 或 者 更 新 到 中 间 队 列 

(intermediate queue) 、 绥 冲 或 者 数据 库 。 

io 模块 非常 适用 于 流 处 理 。Python 从 2.6 版 本 开始 支持 它 ， 并 作为 文 
件 模 块 的 替代 品 。io 模块 在 Python 3.x 中 已 经 是 一 个 默认 接口 。 

在 一 些 更 复杂 的 数据 管道 中 ， 需 要 局 用 消息 队列 (message 
queue) 。 到 达 的 连续 数据 会 被 放 在 队列 里 一 段 时 间 ， 然 后 才能 被 我 们 
接收 到 。 ”这 样 做 的 好 处 是 作为 数据 的 使 用 者 ， 我 们 有 能 力 在 数据 过 载 
时 和 暂 信 处 理 。 而 且 ， 把 数据 放 在 通用 的 消 奶 电线 (message bus) 中 ， 能 
够 让 我 们 项 目 中 的 客户 去 使 用 同样 的 数据 ， 同 时 又 不 会 干涉 到 我 们 的 软 
TF. 








2.12 & D IINumP v2 Z2 


接 下 来 会 介绍 如 何 用 NumPy 和 SciPy 这 两 种 Python 库 来 做 图 像 处 
理 。 

在 科学 计算 中 ， 图 像 通常 被 看 做 n 维 数组 。 图 像 一 般 是 二 维 数组 ， 
在 我 们 的 例子 中 ， 它 们 会 被 表示 为 NumPy 数 组 数据 结构 。 因 此 ， 对 图 像 
执行 的 一 些 方法 及 操作 被 看 作 是 矩阵 操作 。 

从 和 矩阵 操作 这 个 音义 上 讲 ， 图 像 不 需要 总 是 二 维 的 。 在 医疗 或 者 生 
物 科 学 领域 ， 图 像 是 更 高 维度 的 数据 结构 ， 比 如 3D (有 表示 深度 的 Z 轴 
或 者 时 间 轴 ) 或 者 4D〈 有 三 个 空间 维度 和 一 个 时 间 维 度 ) 。 但 是 在 本 
节 我 们 不 会 用 到 这 些 。 

可 以 用 各 种 方法 导入 图 像 ， 这 完全 取决 于 你 想 对 图 像 做 什么 操作 。 
并 且 ， 这 也 取决 于 你 所 使 用 的 工具 的 生态 系统 以 及 项 目 所 运行 的 平台 。 

在 本 节 中 ， 我 们 将 演示 Python 处 理 图 像 的 几 种 方式 ， 它 们 更 多 的 是 
和 科学 处 理 相 关 ， 与 图 像 操 作 艺 术 方 面 的 关系 不 大 。 


2.12.1 准备 工作 








本 节 的 一 些 例子 将 使 用 SciPy 库 。 如 果 你 安装 了 NumPy，SciPy 库 也 
束 已 经 安装 好 了 。 如 果 还 没有 ， 用 操作 系统 的 包 管 理工 具 也 可 以 很 方便 
地 安装 ， 执 行 下 面 的 命令 。 

$ sudo apt-get install python-scipy 

对 于 Windows 用 户 ， 我 们 推荐 用 预 打 包 的 Python 环 境 ， 如 EPD。 这 
在 第 1 半 “ 准 备 工作 环境 ”已 经 讨论 过 。 

如 有 果 想 用 官方 发 布 的 源码 进行 安装 ， 请 确保 已 经 安装 了 相应 的 系统 


依赖 项 如 下 所 示 。 
€ BLAS 和 LAPACK: libblas 和 liblapack. 
€ C fil Fortran 编译 器 : gcc 和 gfortran. 


2.12.2 EF I 


任何 一 个 工作 在 数字 信和 号 处 理 领 域 ， 或 者 曾经 参加 过 数字 信和 号 处 理 
或 相关 学 科 的 大 学 课程 的 人 ， 都 会 遇 到 Lena 图 。Lena 图 实际 上 是 一 幅 标 
准 图 ， 用 来 验证 图 像 处 理 算 法 。 
ee 因此 我 们 可 以 很 简单 地 
这 幅 图 。 下 面 是 获取 并 显示 这 幅 图 的 代码 。 


import scipy.misc 














import matplotlib.pyplot as plt 

# load already prepared ndarray from scipy 

lena = scipy.misc.lena() 

# set the default colormap to gray 

plt.gray() 

plt.imshow(lena) 

plt.colorbar() 

plt.show() 

代码 会 打开 一 个 新 窗口 ， 显 示 Lena 图 的 灰 度 图 和 坐标 轴 。 颜 色 条 显 
示 了 图 像 上 值 的 范围 ， 在 这 里 显示 的 是 0 一 一 黑色 到 255 一 一 白色 Cn Eg 
2-5 所 示 ) 。 





图 2-5 
更 进一步 ， 可 以 通过 下 面 的 代码 来 检查 这 个 对 象 。 


print lena.shape 





print lena.max() 

print lena.dtype 

上 面 代码 的 输出 如 下 : 

(512, 512) 

245 

dtype(‘int32') 

看 到 图 像 信 息 如 下 。 

€ 512 个 点 宽 和 512 个 点 高 。 


€ 整个 数组 〈 图 像 ) 的 最 大 值 是 2454, 


每 个 点 都 被 表示 为 小 端 〈little endian) 32 位 整数 。 

也 可 以 用 Python Image Library (PIL) 读 入 图 像 。 在 第 1 REKI 
作 环 境 ? 中 我 们 已 经 安装 好 了 PIL。 

import numpy 

import Image 

import matplotlib.pyplot as plt 

bug = Image.open('stinkbug.png?) 

arr = numpy.array(bug.getdata(), numpy.uint8).reshape(bug.size[1], 

bug.size[0], 3) 

plt.gray() 

plt.imshow(arr) 

plt.colorbar() 

plt.show() 

也 可 以 用 与 处 理 Lena 图 相似 的 方式 观察 其 他 图 像 ， 如 图 2-6 所 示 。 





图 2-6 
如 果 我 们 工作 在 一 个 用 PIL 作 为 其 默认 的 图 像 加 载 器 的 系统 上 ， 上 
面 的 内 容 或 许可 以 帮 到 你 。 


2.12.3 工作 原理 


除了 简单 加 载 图 像 ， 我 们 真正 想 做 的 是 用 Python 操作 并 处 理 图 像 。 
假如 ， 我 们 想 加 载 一 幅 包 含 RGB 通道 的 真实 图 像 ， 把 它 转换 成 单 通道 的 
ndarray， 人 然后 用 数组 切片 的 方法 来 放大 部 分 图 像 。 下 面 的 代码 演示 了 如 
何 用 NumPy 和 matplotlib 完 成 这 些 工 作 。 

import matplotlib.pyplot as plt 

import Scipy 


import numpy 

bug = scipy.misc.imread(‘stinkbug1.png’) 

# if you want to inspect the shape of the loaded image 

# uncomment following line 

#print bug.shape 

# the original image is RGB having values for all three 

# channels separately. We need to convert that to greyscale image 

# by picking up just one channel. 

# convert to gray 

bug = bug[:,:,0] 

bug[:,:,0] 称 作 数 组 切片 (array slicing) > NumPy 的 这 个 功能 让 我 们 
能 够 选取 多 维 数组 中 任意 部 分 。 例 如 ， 让 我 们 看 如 下 一 维 数组 。 

>>>a=array(5, 1, 2, 3, 4) 

>>> a[2:3] 

array([2]) 

>>> a[:2] 

array([5, 1]) 

>>> a[3:] 

array([3, 4]) 

对 多 维 数组 ， 用 喜 号 区 别 不 同 的 维度 。 示 例如 下 : 

>>> b = array([[1,1,1],[2,2,2],[3,3,3]]) # matrix 3 x 3 

>>> b[0,:] # pick first row 

array([1,1,1]) 

>>> b[:,0] # we pick the first column 

array([1,2,3]) 

看 一 下 下 面 这 段 代 码 。 


# Show original image 





plt.figure() 

plt.gray() 

plt.subplot(121) 

plt.imshow(bug) 

# show 'zoomed' region 

zbug = bug[100:350,140:350] 

上 述 代码 放大 了 整 图 的 某 个 一 部 分 。 请 记 住 ， 图 像 不 过 是 一 个 被 表 
示 为 NumPy 数 组 的 多 维 数组 。 在 这 里 ， 放 大 的 意思 是 在 矩阵 中 选择 一 个 
行 和 列 范 围 。 我 们 选择 了 从 100 行 到 250 行 ， 从 140 列 到 350 列 之 间 的 部 分 
矩阵。 切记 ， 数 组 下 标 从 0 开始 ， 华 标 上 的 100 实 际 上 是 第 101 行 。 

plt.subplot(122) 

plt.imshow(zbug) 

plt.show() 

结果 显示 如 图 2-7 所 示 。 


100 200 300 400 





2.12.4 补充 说 日 


对 于 大 图 像 ， 我 们 推荐 使 用 “numpy.memmap 来 做 图 像 的 内 存 映 
射 ， 因 为 这 会 加 快 操 作 图 像 的 速度 。 例 如 : 

import numpy 

file name = 'stinkbug.png' 

image = numpy.memmapf(file name, dtype-numpy.uint8, shape = (375, 
500)) 

代码 把 一 个 大 文件 的 一 部 分 加 载 到 内 存 中 ， 并 当 作 NumPy 数 组 来 访 
问 它 。 这 样 操作 的 效率 非常 高 ， 因 为 它 允 许 我 们 像 标准 NumPy 数 组 那样 
操作 文件 数据 结构 ， 同 时 又 不 用 把 所 有 内 容 全 部 加 载 到 内 存 中 。shape 
参数 定义 了 数组 的 形状 ， 数 组 由 file_name 参 数 指 定 的 类 文件 对 象 加 载 。 
注意 ，Python 中 的 mmap Chttp://docs.python.org/2/ library/mmap.html) 
有 类 似 的 概念 ， 但 很 重要 的 一 点 区 别 是 ，NumPy 的 memmap 返 回 类 数组 
对 象 ， 而 Python 的 mmap 返回 一 个 类 文件 对 象 。 因 此 它们 在 用 法 上 有 很 
大 的 不 同 ， 不 过 这 些 不 同 在 它们 各 上 自 的 使 用 环境 中 还 是 很 合适 的 。 

有 一 些 专注 于 图 像 处理 的 专业 软件 包 ， 如 scikit-image (http://scikit- 
image.org/) 。 它 们 构建 在 NumPy'SciPy 库 之 上 ， 基 本 上 是 图 像 处理 算 法 
的 免费 合集 。 如 果 想 做 边缘 检测 、 图 像 去 噪 ， 或 者 轮廓 查找 ， 可 以 从 
scikit 工 具 中 查找 相应 的 算法 。 学 习 scikit 最 好 的 方法 是 看 示例 库 ， 并 找 
到 其 对 应 图 像 和 代码 (http://scikit-image. 


org/docs/dev/auto_examples/) 。 











2.13 LA) FAY SA AL Eder 


本 节 将 展示 生成 随机 数字 序列 和 单词 序列 的 不 同方 法 。 一 些 例子 使 
用 标准 Python 模 块 ， 一 些 使 用 NumpPy/SciPy 方 法 。 

我 们 会 接触 到 一 些 统计 学 术语 ， 但 是 我 们 会 逐一 解释 这 些 术 语 ， 所 
以 在 读本 节 内 容 时 你 不 必 拿 着 一 本 统计 学 参考 书 。 

我 们 用 常用 的 Python 模 块 生成 一 些 数据 集合 。 然 后 ， 就 可 以 用 这 些 
数据 来 了 解 分 布 、 方 差 、 采样 和 一 些 类 似 的 统计 学 术语 。 更 重要 的 是 ， 
可 以 用 假 数据 来 了 解 统计 方法 是 不 是 能 够 得 到 我 们 想 要 的 模型 。 因 为 已 
经 预先 知道 了 模型 ， 所 以 我 们 可 以 把 统计 方法 应 用 到 已 知 的 数据 上 进行 
验证 。 在 真实 场景 下 ， 我 们 是 没 办 法 做 到 这 一 点 的 ， 因 为 我 们 必须 要 估 
计 到 ， 总 会 有 一 定 程度 的 不 确定 性 因素 存在 ， 可 能 导致 错误 的 结 采 。 


2.13.1 准备 工作 














在 练习 这 些 示 例 的 时 候 ， 不 需要 安装 任何 新 的 东西 。 但 是 有 一 些 统 
计 学 的 知识 是 有 帮助 的 ， 虽 然 不 是 必需 的 。 

这 里 有 一 个 简短 的 术语 表 可 以 补充 一 下 统计 学 知识 。 在 本 章 和 接 下 
来 几 章 会 用 到 这 些 术 语 。 

€ 分 布 或 者 概率 分 布 (Distribution or probability distribution) : 表 
示 统 计 实 验 的 结果 和 发 生 概 率 之 间 的 联系 。 

€ WE: (Standard deviation) : 这 个 数值 表示 个 体 和 群体 之 间 的 
差异 。 如 果 差 寞 很 大 ， 标 准 差 会 比较 大 ; 如 有 果 所 有 个 体 实验 在 整 组 范围 
内 基本 相同 ， 标 准 差 会 比较 小 。 

€ FE (Variance) : 标准 差 的 平方 。 








总 体 或 者 统计 总 体 (Population or statistical population) : 所 有 
潜在 的 可 观测 案例 的 集合 。 例 如 ， 如 果 我 们 对 世界 上 学 生 的 平均 成 绩 感 
兴趣 ， 那 么 统计 总 体 束 是 世界 上 所 有 学 生 的 成 绩 。 
9 A (Sample) : 这 是 总 体 的 子 集 。 我 们 无 法 拿 到 世界 上 所 有 
学 生 的 所 有 成 绩 ， 因 此 只 能 收集 抽样 数据 并 对 之 进行 建 模 。 


2.13.2 EF TE 


可 以 用 Python 的 random 模 块 生 成 一 个 简单 的 随机 数 样本 。 请 看 下 面 
的 例子 : 

import pylab 

import random 

SAMPLE_SIZE = 100 

# seed random generator 

# if no argument provided 

# uses system current time 

random.seed() 

# store generated random values here 

real_rand_vars = [] 

# pick some random values 

real_rand_vars = [random.random() for val in xrange(SIZE)] 

# create histogram from data in 10 buckets 

pylab.hist(real rand vars, 10) 

# define x and y labels 

pylab.xlabel("Number range") 

pylab.ylabel("Count") 


# show figure 


pylab.show() 
这 是 一 个 均匀 分 布 的 样本 。 当 我 们 运行 示例 代码 时 ， 可 以 看 到 如 图 


2-8 所 示 的 图 。 
尝试 设置 SAMPLE_SIZE 为 一 个 大 数 〈 如 10000) ， 观 察 直 方 图 是 如 
何 变化 的 。 


如 果 想 让 值 的 区 间 从 “0 一 1 变 为 从 1 一 6《〈 例 如 ， 模 拟 掷 一 个 色 
F) ， 可 以 用 random.randinttmin, max)。 这 里 的 min 和 max 指 相 应 的 下 
限 和 上 限 。 如 果 想 生成 浮 点 数 而 不 是 整数 的 样本 ， 可 以 用 


random.uniform(min, max) 方 法 。 


0.4 0.6 
Number range 





图 2-8 
用 相似 的 方式 ， 使 用 相同 的 工具 ， 可 以 生成 虚拟 价格 增长 数据 的 时 
序 图 ， 并 加 上 一 些 随机 噪声 。 
import pylab 


import random 
# days to generate data for 
duration = 100 
# mean value 
mean_inc = 0.2 
# standard deviation 
std_dev_inc = 1.2 
# time series 
x = range(duration) 
y=U 
price_today = 0 
for i in x: 
next delta = random.normalvariate(mean inc, std dev inc) 
price today += next. delta 
y.append(price today) 
pylab.plot(x,y) 
pylab.xlabel("Time") 
pylab.xlabel("Time") 
pylab.ylabel(" Value") 
pylab.show() 
这 段 代 码 定义 了 100 个 数据 点 (虚拟 天 数 〉 的 序列 。 对 于 接 下 来 的 
每 一 天 ， 从 中 值 为 mean_inc， 标 准 兰 为 std_dev_inc 的 正 态 分 布 
(random.normalvariate()) 中 选取 一 个 随机 值 ， 然 后 加 上 前 一 天 的 价格 
(price today) 作为 当天 的 价格 。 
如 果 想 要 更 多 的 控制 ， 可 以 使 用 不 同 的 分 布 。 下 面 的 代码 说 明 并 展 
示 了 不 同 的 分 布 。 在 演示 它们 时 ， 我 们 会 注意 解释 每 一 个 代码 段 。 我 们 
从 导入 需要 的 模块 开始 ， 然 后 对 几 个 直方 图 进行 说 明 。 我 们 也 创建 了 一 





个 图 来 容纳 并 显示 所 有 的 直方 图 。 

# coding: utf-8 

import random 

import matplotlib 

import matplotlib.pyplot as plt 

SAMPLE_SIZE = 1000 

# histogram buckets 

buckets = 100 

plt.figure() 

# we need to update font size just for this example 

matplotlib.rcParams.update( ('font.size': 7}) 

为 了 能 排列 下 所 有 规定 的 图 形 ， 我 们 定义 了 一 个 由 6x2 的 subplot 网 
格 来 显示 所 有 的 直方 图 。 第 一 个 图 形 是 在 [0,1) 之 间 分 布 的 随机 变量 

(normal distributed random variable) 。 

plt.subplot(621) 

plt.xlabel("random.random") 

# Return the next random floating point number in the range [0.0, 1.0). 

res = [random.random() for _ in xrange(1, SAMPLE SIZE)] 

plt.hist(res, buckets) 

我 们 绘制 的 第 二 个 图 形 是 一 个 均匀 分 布 的 随机 变量 

Cuniformlydistributedrandomvariable) 。 

plt.subplot(622) 

plt.xlabel("random.uniform") 

# Return a random floating point number N such that a <= N «- b fora 

<= b and b <= N «7 a for b « a. 

# The end-point value b may or may not be included in the range 


depending on floating-point rounding in the equation a + (b-a) * 


random(). 

a= 1 

b= SAMPLE SIZE 

res = [random.uniform(a, b) for _ in xrange(1, SAMPLE SIZE)] 

plt.hist Cres,buckets) 

第 三 个 图 形 是 一 个 三 角形 分 布 (triangular distribution) 。 

plt.subplot(623) 

plt.xlabel("random.triangular") 

# Return a random floating point number N such that low <= N «- high 

and with the specified 

# mode between those bounds. The low and high bounds default to zero 
and one. The mode 

# argument defaults to the midpoint between the bounds, giving a 

symmetric distribution. 

low = 1 

high = SAMPLE_ SIZE 

res = [random.triangular(low, high) for in xrange(1, SAMPLE SIZE)] 

plt.hist(res, buckets) 

第 四 个 图 形 是 beta 分 布 (beta distribution) 。 参 数 的 条 件 是 alpha 
和 beta 都 要 大 于 0， 返回 值 在 0 一 1 之 间 。 

plt.subplot(624) 

plt.xlabel("random.betavariate") 

alpha 7 1 

beta = 10 

res =  [random.betavariate(alpha, beta) for _ in  xrange(l, 
SAMPLE SIZE)]| 

plt.hist(res, buckets) 





第 五 幅 图 显示 了 一 个 指数 分 布 (exponential distribution) 。lambd 的 
值 是 1.0 除 以 期 望 的 中 值 ， 是 一 个 不 为 零 的 数 〈 参 数 应 该 叫做 ljambda， 但 
它 是 Python 的 一 个 保留 字 ) 。 如 果 lambd 是 整数 ， 返 回 值 的 范围 是 零 到 
正 无 穷 大 ， 如 果 lambd 为 负 ， 返 回 值 范 围 是 负 无 穷 大 到 零 。 

plt.subplot(625) 

plt.xlabel("random.expovariate") 

lambd = 1.0/ ((SAMPLE SIZE + 1)/2.) 

res = [random.expovariate(lambd) for _ in xrange(1, SAMPLE SIZE)] 

plt.hist(res, buckets) 

下 一 幅 图 是 gamma 分 布 (gamma distribution) ， 要 求 参 数 alpha 和 
beta 都 大 于 零 。 概 率 分 布 函 数 如 下 。 


下 面 是 gamma 分 布 的 代码 。 

plt.subplot(626) 

plt.xlabel("random.gammavariate") 

alpha = 1 

beta = 10 

res =  [random.gammavariate(alpha, beta) for _ in  xrange(1, 
SAMPLE_SIZE)] 

plt.hist(res, buckets) 

下 一 幅 图 是 对 数 正 态 分 布 (Log normal distribution) 。 如 果 取 这 个 
分 布 的 自然 对 数 ， 会 得 到 一 个 中 值 为 mu， 标 准 莽 为 sigma 的 正 态 分 布 。 
mu 可 以 取 任 何 值 ，sigma 必 须 大 于 零 。 

plt.subplot(627) 


plt.xlabel("random.lognormvariate") 


mu= 1 
sigma = 0.5 
res = [random.lognormvariate(mu, sigma) for _ in xrange(1, 


SAMPLE SIZE)] 


HEE 


plt.hist(res, buckets) 

下 一 幅 图 是 一 个 正 态 分 布 (normal distribution) ， 中 值 为 mu， 标 
为 sigma。 

plt.subplot(628) 

plt.xlabel("random.normalvariate") 

mu = 1 

sigma = 0.5 


res =  [random.normalvariate(mu, sigma) for _ in  xrange(1, 


SAMPLE SIZE)] 


数 。 


plt.hist(res, buckets) 
最 后 一 幅 图 是 帕 累 托 分 布 (Pareto distribution) ，alpha 是 形状 参 


plt.subplot(629) 

plt.xlabel("random.paretovariate") 

alpha = 1 

res = [random.paretovariate(alpha) for in xrange(1, SAMPLE SIZE)] 
plt.hist(res, buckets) 

plt.tight layout() 

plt.show() 

虽然 这 个 示例 代码 内 容 有 点 多 ， 但 基本 上 讲 ， 我 们 选取 了 1000 个 随 











机 数 ， a 了 几 种 不 同 的 分 布 。 这 些 都 是 应 用 在 不 同 统计 学 分 文中 《经 


济 学 


、 社 会 学 、 生 物 科 学 等 ) 的 常见 分 布 。 


我 们 应 该 看 到 基于 不 同 分 布 算法 的 直方 图 之 间 的 区 别 。 不 妨 花 些 时 
间 来 理解 一 下 这 9 幅 图 (如 图 2-9 所 示 )〉。 




















图 2-9 
用 seed0 来 初始 化 伪 随 机 数 生 成 器 ， 这 样 random0) 方 法 就 能 生成 相 





同 的 期 望 随机 值 。 有 时 候 这 非常 有 用 ， 并 且 比 预先 生成 随机 数 并 保存 到 
文件 中 要 好 。 第 二 种 方法 并 不 总 是 可 行 的 ， 因 为 它 要 求 保 存 〈 可 能 是 大 
量 的 ) 数据 到 文件 系统 。 

如 有 果 想 避免 随机 生成 的 序列 重复 ， 我 们 推荐 使 用 
random.SystemRandom， 其 底层 使 用 os.urandom。os.urandom 提供 了 对 
ELMI Centropy source) 的 访问 。 如 果 使 用 这 个 随机 数 生 成 器 接口 ， 
seed() 和 setstate() 没 有 有 影响。 这样 一 来 ， 样 本 束 不 是 可 重 现 的 了 。 

如 果 想 要 一 些 随机 的 单词 ，〈 在 Linux 系统 中 ) 最 简单 的 方法 可 能 
就 是 用 /usr/share/dict/words 了 。 从 下 面 的 例子 中 ， 我 们 可 以 看 到 是 如 何 
ny. B 


import random 

















with open(‘/usr/share/dict/words’, 'rt') as f: 


words = f.readlines() 


words = [w.rstrip() for w in words] 
for w in random.sample(words, 5): 
print w 
这 个 方案 仅仅 是 针对 Unix 系 统 的 ， 在 Windows 上 不 可 行 〈 但 可 在 
Mac 上 运行 ) 。Windows 用 户 可 以 使 用 从 各 种 免费 的 资源 〈Project 
Gutenberg. Wiktionary. British National Corpus 或 者 Dr Peter Norvig 的 
http://norvig.com/big.txt) 生成 的 文件 。 











2.14 真实 数据 的 噪声 平滑 处 





本 节 将 引入 一 些 高 级 算法 ， 帮 助 我 们 清理 来 自 真实 数据 源 的 数据 。 
这 些 算 法 在 信号 处 理 领域 很 有 名 ， 我 们 不 会 深究 其 数学 上 的 实现 ， 但 会 
举例 说 明 为 什么 它们 是 可 行 的 ， 以 及 它们 的 工作 原理 和 应 用 场景 。 


2.14.1 准备 工作 


来 自 各 种 真实 世界 传感器 的 数据 通常 是 不 平滑 和 不 干 滔 的 ， 包 含 了 
一 些 我 们 不 想 显 示 在 图 表 或 图 形 中 的 噪声 。 我 们 希望 图 表 和 图 形 能 清晰 
地 传递 信息 ， 不 想 让 用 户 在 理解 上 花费 过 多 的 精力 。 

在 这 里 ， 我 们 不 需要 安装 任何 新 的 软件 ， 因 为 接 下 来 我 们 将 使 用 一 
些 已 经 熟悉 的 Python 软件 包 : NumPy. SciPy#llmatplotlib. 











2.14.2 FRIE OR 











基础 算法 是 基于 滚动 窗口 (rolling window) 模式 〈 例 如 卷 积 ) 。 窗 
口 滚动 过 数据 ， 然 后 计算 出 窗口 内 数据 的 平均 值 。 

对 于 离散 数据 ， 我 们 使 用 NumPy 的 convolve 方 法 ， 它 返回 两 个 一 维 
序列 的 离散 线性 卷 积 。 我 们 也 使 用 NumPy 的 linspace 方 法 ， 它 生成 一 个 
给 定 间隔 的 等 距 数字 序列 。 

方法 ones 定 义 了 一 个 所 有 元 素 值 为 1 的 序列 或 者 矩阵 (例如 多 维 数 
ZH) 。 我 们 用 它 来 生成 用 于 求 平 均值 的 窗口 。 


2.14.3 工作 原理 


平 请 数据 噪声 的 一 个 简单 朴素 的 做 法 是 ， 对 窗口 〈 样 本 ) 求 平 均 ， 





然后 仅仅 绘制 出 给 定 窗 口 的 平均 值 ， 而 不 是 所 有 的 数据 点 。 这 也 是 更 
级 算法 的 基础 。 


from pylab import * 


z 


from numpy import * 

def moving. average(interval, window. size): 
"Compute convoluted window for given size 
window = ones(int(window. size)) / float(window. size) 
return convolve(interval, window, 'same") 

t= linspace(-4, 4, 100) 

y = sin(t) + randn(len(t))*0.1 

plot(t, y, "k.") 

# compute moving average 

y. av = moving. average(y, 10) 

plot(t, y av,"r") 

#xlim(0,1000) 

xlabel("Time") 

ylabel(" Value") 

grid(True) 

show() 

如 图 2-10 所 示 ， 可 以 看 出 平滑 处 理 后 的 曲线 和 原始 数据 点 〈 图 上 的 

点 ) 之 间 的 对 比 情况 。 


Value 








Time 








图 2-10 

沿 着 这 种 思路 ， 我 们 可 以 开始 一 个 更 高 级 的 例子 。 在 这 个 例子 中 我 
们 将 使 用 现 有 的 SciPy 库 来 让 窗口 平滑 处 理 达 到 更 好 的 效果 。 

以 下 方法 是 基于 信号 (指数 据点 ) 窗口 的 卷 积 (函数 的 总 和 ) 。 我 
们 在 准备 信号 时 用 了 一 些小 技巧 ， 回 两 端 添 加 相同 信号 的 副本 并 做 反 
射 。 这 样 一 来 ， 我 们 误 减 小 了 数据 的 边界 效应 。 这 上 段 代码 是 SciPy 
Cookbook 一 书 中 的 例子 ， 参 见 
http://www.scipy.org/Cookbook/SignalSmooth. 








import numpy 

from numpy import * 

from pylab import * 

# possible window type 

WINDOWS = ['flat', ‘hanning’, ‘hamming’, 'bartlett', blackman'] 


# if you want to see just two window type, comment previous line, 
# and uncomment the following one 
# WINDOWS = ['flat', "hanning'] 
def smooth(x, window_len=11, window="hanning’): 
Smooth the data using a window with requested size. 
Returns smoothed signal. 
x -- input signal 
window len -- lenght of smoothing window 
window -- type of window: ‘flat’, hanning', ‘hamming’, 
'bartlett', blackman' 
flat window will produce a moving average smoothing. 
if x.ndim != 1: 
raise ValueError, "smooth only accepts 1 dimension arrays." 
if x.size < window len: 
raise ValueError, "Input vector needs to be bigger than window 
size." 
if window len « 3: 
return x 
if not window in WINDOWS: 
raise ValueError("Window is one of 'flat', hanning', ‘hamming’, " 
"bartlett', blackman"") 
# adding reflected windows in front and at the end 
s-numpy.r [x[window. len-1:0:-1], x, x[-1:-window_len:-1]] 
# pick windows type and do averaging 


if window == 'flat': moving average 


w = numpy.ones(window. len, 'd") 
else: 
# call appropriate function in numpy 
w = eval(‘numpy.' + window + '(window len)? 
# NOTE: length(output) != length(input), to correct this: 
# return y[(window_len/2-1):-(window_len/2)] instead of just y. 
y = numpy.convolve(w/w.sum(), s, mode-' valid") 
return y 
# Get some evenly spaced numbers over a specified interval. 
t= linspace(-4, 4, 100) 
# Make some noisy sinusoidal 
x = sin(t) 
xn = x + randn(len(t))*0.1 
# Smooth it 
y = smooth(x) 
# windows 
ws = 31 
subplot(211) 
plot(ones(ws)) 
# draw on the same axes 
hold(True) 
# plot for every windows 
for win WINDOWS[1:]: 
eval(‘plot('+w+'(ws) )') 
# configure axis properties 
axis([0, 30, 0, 1.1]) 


# add legend for every window 


legend(WINDOWS) 

title("Smoothing windows") 

# add second plot 

subplot(212) 

# draw original signal 

plot(x) 

# and signal with added noise 

plot(xn) 

# smooth signal with noise for every possible windowing algorithm 

for w in WINDOWS: 

plot(smooth(xn, 10, w)) 

# add legend for every graph 

l=['original signal’, 'signal with noise'] 

l.extend( WINDOWS) 

legend(l) 

title("Smoothed signal") 

show() 

N\R12-1 1 AS RI PA VF Ae et SETA Ze M fnr MTR E fs 
号 的 。 上 面 的 图 形 显 示 了 窗口 算法 ， 下 面 的 图 形 显 示 了 每 一 个 相应 的 结 
末 ， 包 括 原 始 信和 号、 添加 了 噪声 的 信号 和 经 过 每 个 算法 平滑 处 理 过 的 信 
号 。 可 以 在 代码 中 试 着 注释 掉 一 些 窗口 类 型 ， 只 保留 一 到 两 个 窗口 ， 可 
以 更 好 的 理解 算法 之 间 的 差异 。 





























Smoothing windows 


— original signal 
— signal with noise 
— flat 

— hanning 
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2.14.4 补充 说 日 


另 一 个 非常 流行 的 信号 平滑 处 理 算 法 是 中 值 滤 波 〈Median 
Filter) 。 中 值 滤波 的 中 心思 想 就 是 逐 项 地 过 历 信号 ， 并 用 相 邻 信号 项 的 
中 值 蔡 换 当前 项 。 这 种 方法 使 得 滤波 处 理 非 第 快速 ， 而 且 对 一 维 数据 集 
合 和 两 维 数据 集合 〈 例 如 图 像 ) 都 适用 。 

在 下 面 的 例子 中 ， 我 们 使 用 了 SciPy 信 号 工具 箱 中 的 实现 。 


import numpy as np 











import pylab as p 

import scipy.signal as signal 
# get some linear data 

x = np.linspace (0, 1, 101) 


# add some noisy signal 


x[3::10] = 1.5 

p.plot(x) 

p.plot(signal.medfilt(x,3)) 

p.plot(signal.medfilt(x,5)) 

p.legend(['original signal’, length 3','length 5']) 

p.show () 

从 图 2-12 所 示 的 图 形 中 ， 可 以 看 到 窗口 越 大 ， 信 号 和 原始 信号 相 比 
失真 越 严 重 ， 但 同时 看 上 去 也 越 平 滑 。 





— original signal 


— length 3 
— lengths 





图 2-12 
许多 方法 可 以 对 从 外 部 信号 源 接收 到 的 数据 《信号 ) 进行 平滑 处 
理 ， 这 取决 于 工作 的 领域 和 信号 的 性 质 。 许 多 算法 都 是 专门 用 于 某 一 种 
特定 的 信号 ， 可 能 没有 一 个 通用 解决 方案 普遍 适用 于 所 有 的 情况 。 
然而 ， 一 个 非常 重要 的 问题 是 , “什么 时 候 不 应 该 对 信号 进行 平滑 
处 理 ? ”一 个 常见 的 情况 是 在 统计 过 程 〈 如 最 小 二 乘 曲线 拟 合 ，least- 
squares curve fitting) 之 前 ， 因 为 所 有 的 平滑 算法 或 多 或 少 都 会 使 信号 产 








生 失 真 ， 从 而 改变 信号 波形 。 而 且 ， 对 于 真实 信号 来 次， 平滑 处 理 的 噪 
声 对 于 真实 的 信号 来 说 可 能 是 错误 的 。 
































2]. 原 书 为 254， 属 笔 误 。 
[3]. 原 书 为 : /usr/share/dicts/words 


本 章 会 详细 介绍 并 展示 更 多 matplotlib 的 功能 ， 包 括 以 下 几 方 面 。 
€ 定义 图 表 类 型 一 一 柱状 图 、 线 形 图 和 堆积 柱状 图 
€ 绘制 简单 的 正弦 图 和 余弦 图 

€ 设置 轴 的 长 度 和 范围 

€ 设置 图 表 的 线 型 、 属 性 和 格式 化 字符 串 

€ 设置 刻度 、 刻 度 标签 和 网 格 

€ 添加 图 例 和 注解 

€ 移动 轴线 到 图 正中 央 

€ 绘制 直方 图 

€ 绘制 误差 条 形 图 

€ 绘制 饼 图 

€ 绘制 带 填 充 区 域 的 图 表 

€ 绘制 珊 彩 色 标记 的 散 点 图 


i  .— c c 





虽然 我 们 已 经 用 matplotlib 绘 制 了 一 些 图 表 ， 但 并 没有 详细 介绍 它们 
是 怎么 工作 的 ， 怎 样 设置 它们 ， 或 者 如 何 用 matplotlib 做 更 多 的 事情 。 我 
们 研究 并 练习 了 大 部 分 基本 类 型 的 数据 可 视 化 : 线形 图 、 柱 状 图 、 直 方 
图 、 饼 图 以 及 它们 的 变形 。 

Matplotlib 是 一 个 强大 的 工具 箱 ， 能 满足 几乎 所 有 2D 和 一 些 3D 绘 图 
的 需求 。 通 过 例子 学 习 matplotlib 是 其 作者 推荐 的 方式 。 当 需要 男 一 个 图 
表 时 ， 我 们 找到 一 个 相似 的 例子 ， 然 后 尝试 做 些 改动 使 其 满足 我 们 的 要 
求 。 因 此 ， 我 们 也 打算 同 你 展示 一 些 有 用 的 例子 ， 而 且 相 信和 能 帮助 你 找 
到 一 个 和 你 的 需求 类 似 的 例子 。 








玉 将 展示 基本 的 图 表 以 及 它们 的 用 途 。 这 里 介绍 的 大 多 数 图 表 都 
用 的 ， 其 中 有 一 些 是 理解 数据 可 视 化 中 更 高 阶 概念 的 基础 。 


3.2.1 准备 工作 


我 们 从 matplotlib.pyplot 库 的 一 些 和 常用 图 表 入 手 ， 采 用 一 些 简单 的 
样本 数据 开始 一 些 基本 的 绘图 操作 ， 为 后 面 几 节 内 容 打 基础 。 


3.2.2 步骤 


我 们 先 在 IPython 中 创建 一 个 简单 的 图 表 。IPython 非 常 不 错 ， 它 能 
让 我 们 交互 式 地 改变 图 表 并 立即 看 到 结 

1. 在 命令 行 键入 以 下 命令 来 启动 IPython。 

$ ipython --pylab 


In [1]: plot([1,2,3,2,3,2,2,1]) 

Out[1]: [<matplotlib.lines.Line2D at 0x412fb50>] 

图 表 会 显示 在 一 个 新 打开 的 窗口 中 ， 其 默认 的 外 观 和 一 些 辅助 信息 
如 图 3-1 所 示 。 

Matplotlib 中 的 基本 图 表 包 括 以 下 元 素 。 

€ x UNI y 轴 : 水 平和 垂 直 的 轴线 。 

€ x HUI y 轴 刻 度 : 刻度 标示 坐标 轴 的 分 隔 ， 包 括 最 小 刻度 和 最 大 
刻度 。 





€ x UNI y 轴 刻 度 标 签 : 表示 特定 坐标 轴 的 值 。 
€ 绘图 区 域 : 实际 绘图 的 区 域 。 





图 3-1 
你 会 注意 到 我 们 提供 给 plot0 的 值 是 y 轴 的 值 。plotO 为 x 轴 提供 默认 
值 ， 在 这 里 为 从 0 到 7 的 线性 值 (y 轴 对 应 值 1〉。 
现在 ， 试 着 通过 plot() 的 第 一 个 参数 添加 x 轴 的 值 ， 在 刚才 的 IPython 
会 话 中 键入 以 下 代码 。 


In [2]: plot([4,3,2,1],[1,2,3,4]) 
Out[2]: [<matplotlib.lines.Line2D at 0x31444d0>] 
al 


N 


注意 IPython 是 如 何 对 输入 和 输出 行进 行 计数 的 《In[2] 和 Out[2]))。 这 
能 帮助 我 们 记 住 我 们 在 当前 会 话 中 的 位 置 ， 并 且 IPython 还 提供 了 更 高 级 
的 功能 ， 例 如 把 部 分 会 话 保存 到 Python 文件 中 。 在 数据 分 析 期 间 ， 用 
IPython 做 原型 设计 是 得 到 满意 方案 的 最 快捷 的 方式 ， 然 后 还 可 以 将 特定 
的 会 话 存 到 文件 中 ， 以 备 将 来 重新 生成 相同 的 图 表 。 

图 表 会 变 成 如 图 3-2 所 示 的 样子 。 

由 图 可 知 ，matplotlib 通 过 扩展 y 轴 来 适应 新 的 值 范 围 ， 并 且 为 了 让 
我 们 能 区 分 出 新 的 图 形 ， 自 动 改变 了 第 二 个 线条 的 颜色 。 

如 果 不 关闭 hold 属 性 (通过 调用 hold(False) 方 法 ) ， 所 有 接 下 来 的 
图 表 都 将 绘制 在 相同 的 坐标 轴 下 。 这 是 IPython 的 pylab 模 式 的 默认 行 
为 ， 然 而 在 编写 常规 Python 脚 本 中 ，hold 属 性 默认 是 关闭 的 出。 

















图 3-2 
让 我 们 基于 相同 的 数据 集合 多 生成 一 些 常见 的 图 表 来 做 一 下 比较 。 
可 以 在 IPython 中 键入 下 面 的 代码 ， 或 者 在 一 个 单独 的 Python 脚本 中 运 
qT Es 
from matplotlib.pyplot import * 
# some simple data 
x = [1,2,3,4] 
y = [5,4,3,2] 
# create new figure 
figure() 
# divide subplots into 2 x 3 grid 
# and select #1 
subplot(231) 
plot(x, y) 
# select #2 
subplot(232) 
bar(x, y) 
# horizontal bar-charts 
subplot(233) 
barh(x, y) 
# create stacked bar charts 
subplot(234) 
bar(x, y) 
# we need more data for stacked bar charts 
y1 = [7,8,5,3] 
bar(x, y1, bottom=y, color = T) 
# box plot 


subplot(235) 

boxplot(x) 

# scatter plot 

subplot(236) 

scatter(x,y) 

show() 

绘制 出 来 的 图 表 如 图 3-3 所 示 。 
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图 3-3 
3.2.3 EN | EE 原理 


通过 调用 figure() 方 法 ， 我 们 创建 出 一 个 新 的 图 表 。 如 果 给 方法 提供 





一 个 字符 串 参 数 ， 例 如 sample charts， 这 个 字符 串 就 会 成 为 窗口 的 后 台 
标题 。 如 果 通 过 相同 的 参数 〈 也 可 以 是 数字 ) 调用 figure() 方 法 ， 将 会 激 
活 相 应 的 图 表 ， 并 且 接 下 来 的 绘图 操作 都 在 此 图 表 中 进行 。 

接 下 来 ， 调 用 subplot(231) 方 法 把 图 表 分 割 成 2 x 3 的 网 格 。 也 可 以 
用 subplot(3,2,1) 这 种 形式 来 调用 ， 其 中 第 一 个 参数 是 行 数 ， 第 二 个 参数 
是 列 数 ， 第 三 个 参数 表示 图 形 的 标号 。 

接着 用 几 个 简单 的 命令 创建 垂直 柱状 图 Cbar()) 和 水 平 柱状 图 
(barh()，〉。 对 于 堆 靶 柱状 图 ， 我 们 需要 把 两 个 柱状 图 方法 调用 连 在 一 
起 。 通 过 设置 参数 bottom=y， 把 第 二 个 柱状 图 和 前 一 个 连接 起 来 形成 堆 
车 柱状 图 。 

通过 调用 boxplot0 方 法 可 以 创建 箱 线 图 ， 图 中 的 箱 体 从 下 四 分 位 数 
延伸 到 上 四 分 位 数 ， 并 带 有 一 条 中 值 线 。 后 续 我 们 会 继续 介绍 箱 线 图 。 

最 后 创建 了 一 个 散 点 图 来 使 大 家 对 基于 点 的 数据 集合 有 所 了 解 。 当 
一 个 数据 集合 中 有 成 二 上 万 的 数据 点 时 ， 散 点 图 很 有 可 能 就 更 合适 了 。 
但 这 里 ， 我 们 只 是 想 举 例 说 明 相同 数据 集合 的 不 同 展示 方式 。 


3.2.4 补充 说 日 





现在 让 我 们 回 到 箱 线 图 ， 因 为 需要 解释 一 下 几 个 最 重要 的 显示 选 
项 。 

首先 ， 我 们 可 以 添加 从 箱 体 延伸 出 来 的 箱 须 来 展示 数据 集合 的 整个 
范围 。 箱 体 和 箱 须 主要 用 于 表现 一 个 或 多 个 数据 集合 中 数据 的 变化 ， 容 
易 对 数据 进行 对 比 而 且 易于 理解 。 在 同一 个 箱 线 图 中 可 以 呈现 5 种 数 
据 。 

€ 最 小 值 : 数据 集合 的 最 小 值 。 

€ 第 二 四 分 位 数 : 其 以 下 为 数据 集合 中 较 低 的 25% 数 据 。 

€ FE: 数据 集合 的 中 值 。 


€ 第 三 四 分 位 数 : 其 以 上 为 数据 集合 中 较 高 的 25% 数 据 。 
€ RAE: 给 定数 据 集合 的 最 大 值 。 
为 了 说 明 一 下 上 述 的 数据 项 ， 在 接 下 来 的 代码 中 ， 我 们 将 用 同一 个 
数据 集合 来 绘制 箱 线 图 和 直方 图 。 
from pylab import * 
dataset = [113, 115, 119, 121, 124, 
124, 125, 126, 126, 126, 
127, 127, 128, 129, 130, 
130, 131, 132, 133, 136] 
subplot(121) 
boxplot(dataset, vert=False) 
subplot(122) 
hist(dataset) 
show() 
生成 的 图 表 如 图 3-4 所 示 。 

















图 3-4 
Ww EAT, BIA WOW SARA REN ee. A 
图 呈现 了 前 面 提 到 的 五 个 统计 数据 ， 右 图 (直方 图 ) 展示 了 数据 集合 在 
给 定 范 围 内 的 分 组 情况 。 

















本 市 将 复习 一 下 基本 的 数学 函数 绘图 以 及 和 数学 符号 相关 的 知识 ， 
比如 在 标签 和 绘制 的 曲线 上 写 上 和 希腊 符号 。 


3.3.1 准备 工作 


这 里 我 们 用 到 的 最 多 的 绘图 指令 是 画 线 指令 ， 它 可 以 在 图 表 中 绘制 
出 给 定 的 (xy) 坐 标 。 


3.3.2 un +E oR 


首先 ， 我 们 对 从 -Pi 到 Pi 之 间 具 有 相同 的 线性 距离 的 256 个 点 来 计 
算 正 弦 值 和 余弦 值 ， 然 后 把 sin(x) 值 和 cos(x) 值 在 同一 个 图 表 中 绘制 出 
来 。 

import matplotlib.pyplot as pl 

import numpy as np 

x = np.linspace(-np.pi, np.pi, 256, endpoint=True) 

y = np.cos(x) 

y1 = np.sin(x) 

pl. plot(x,y) 

pl. plot(x,y1) 

pl.show() 

生成 的 图 表 如 图 3-5 所 示 。 





图 3-5 
以 这 个 简单 图 表 为 基础 ， 可 以 进一步 定制 化 来 添加 更 多 的 信息 ， 并 
且 让 坐标 轴 及 其 边界 更 精确 些 。 


from pylab import * 


import numpy as np 

# generate uniformly distributed 

# 256 points from -pi to pi, inclusive 

x = np.linspace(-np.pi, np.pi, 256, endpoint=True) 

# these are vectorised versions 

# of math.cos, and math.sin in built-in Python maths 


# compute cos for every x 


y = np.cos(x) 

# compute sin for every x 

y1 = np.sin(x) 

# plot cos 

plot(x, y) 

# plot sin 

plot(x, y1) 

# define plot title 

title(" Functions $\sin$ and $\cos$") 

# set x limit 

xlim(-3.0, 3.0) 

# set y limit 

ylim(-1.0, 1.0) 

# format ticks at specific values 

xticks([-np.pi, -np.pi/2, 0, np.pi/2, np.pi], 
[r'$-\pi$', r'$-\pi/2$', r'$0$', r'$+\pi/2$', r'$ pi ]) 

yticks([-1, 0, +1], 
[r'$-1$', r'$0$', r'$+1$']) 

show() 

生成 的 图 表 会 比较 漂亮 ， 如 图 3-6 所 示 。 


Functions sin and cos 





图 3-6 
上 述 代 码 中 ， 用 如 $\sin$， 或 $-\pi$ 的 表达 式 在 图 表 中 写 上 希腊 字 
母 。 在 接 下 来 的 章节 中 会 进一步 介绍 这 种 LaTex 语 法 。 这 里 ， 我 们 仅仅 
为 了 说 明 让 你 的 数学 图 表 更 可 读 是 多 么 的 简单 。 











本 节 将 演示 一 些 与 坐标 轴 的 范围 和 长 度 相 关 的 非常 有 用 的 属性 ， 可 
以 在 matplotlib 中 配置 这 些 属性 。 


3.4.1 准备 工作 


本 市 中 的 内 容 将 用 IPython 来 演示 : 
$ ipython --pylab 


3.4.2 un 步骤 


首先 ， 让 我 们 用 坐标 轴 的 不 同属 性 来 做 个 实验 。 调 用 不 这 参数 的 
axis() 方 法 将 返回 坐标 轴 的 默认 值 。 

In [1]: axis() 

Out[1]: (0.0, 1.0, 0.0, 1.0) 

注意 ， 如 果 是 在 交互 模式 下 ， 并 且 使 用 了 窗口 后 端 ， 将 会 显示 一 个 
只 有 坐标 轴 的 空白 图 。 

这 里 的 值 分 别 表示 xmin、xmax、ymin 和 ymax。 同 样 ， 我 们 可 以 设 
置 x 轴 和 y 轴 的 值 。 

In [2]: 1 = [-1, 1, -10, 10] 

In [3]: axis(1) 

Out[3]: [-1, 1, -10, 10] 

再 次 说 明 一 下 ， 在 交互 模式 下 会 更 新 相同 的 图 形 。 而 且 ， 也 可 以 通 
过 关键 字 参 数 (**kwargs) 单独 更 新 某 一 个 参数 值 ， 例 如 仅 把 xmax 设 置 
为 某 个 值 。 


3.4.3 工作 原理 


如 果 不 使 用 axis0 或 者 其 他 参数 设置 ，matplotlib 会 上 自动 使 用 最 小 
值 ， 刚 好 可 以 让 我 们 在 一 个 图 中 看 到 所 有 的 数据 点 。 如 果 设 置 axisQH] 
范围 比 数据 集合 中 的 最 大 值 小 ，matplotlib 按 照 设置 执行 ， 这 样 就 无 法 在 
图 中 看 到 所 有 的 数据 点 。 这 可 能 会 引起 困惑 甚至 是 错误 ， 因 为 我 们 认为 
我 们 看 到 了 绘制 的 所 有 东西 。 避 人 免 这 种 情况 发 生 的 一 种 方法 是 调用 
autoscaleO(matplotlib.pyplot.autoscaleO)B 方 法 ， 该 方法 会 计算 坐标 轴 的 
最 佳 大 小 以 适应 数据 的 显示 。 

如 果 想 回 相 同 图 形 中 添加 新 的 坐标 轴 ， 可 以 调用 
matplotlib.pyplot.axes() 方 法 。 我 们 通常 会 在 方法 中 传 入 一 些 属性 ， 例 如 
rect， 归 一 化 单位 (0，1) 下 的 left、bottom，width、height 四 个 属性 ， 
或 者 axisbg， 该 参数 指定 坐标 轴 的 背景 颜色 。 

还 有 其 他 一 些 参数 允许 我 们 对 新 添加 的 坐标 轴 进 行 设 置 ， 如 
sharex/sharey 参 数 ， 接 收 其 他 坐标 轴 的 值 并 让 当前 坐标 轴 (xy) 共享 相 
同 的 值 ， 或 者 polar 参数 ， 指 定 是 否 使 用 极 坐 标 轴 (polar axes) 。 

添加 新 坐标 轴 是 有 用 的 ， 例 如 ， 如 果 需 要 几 个 不 同 的 视图 来 表达 相 
同 的 数据 的 不 同属 性 值 ， 这 就 需要 在 一 张 图 中 组 合 显示 多 个 图 表 。 

如 果 只 想 对 当前 图 形 添 加 一 条 线 ， 可 以 调用 
matplotlib.pyploy.axhline() 或 者 matplotlib.pyplot.axvline()。axhline() 和 
axvline() 方 法 会 根据 给 定 的 x 和 y 值 相应 地 绘制 出 相对 于 坐标 轴 的 水 平 线 
和 垂直 线 。 这 两 个 方法 的 参数 很 相似 ，axhline() 方 法 比较 重要 的 参数 是 
y 问 位 置 、xmin 和 xmax，axvline() 方 法 比较 重要 的 参数 是 x 同位 置 、 
ymin 和 ymax。 

让 我 们 在 图 表 中 看 一 下 ， 继 续 在 相同 的 IPython 会 话 中 操作 。 

In [3]: axhline() 

Out[3]: «matplotlib.lines.Line2D at 0x414ecd0> 

















In [4]: axvline() 

Out[4]: «matplotlib.lines.Line2D at 0x4152490> 

In [5]: axhline(4) 

Out[5]: «matplotlib.lines.Line2D at 0x4152850> 

得 到 如 图 3-7 所 示 的 图 形 。 

在 这 里 ， 我 们 看 到 调用 这 些 方法 时 如 果 不 传 入 参数 ， 就 会 使 用 默认 
值 。axhline0) 方 法 绘制 了 一 条 y=0 的 水 平 线 ，axvline0 绘 制 了 一 条 x=0 的 
垂直 线 。 

类 似 的 ， 另 外 两 个 相关 的 方法 允许 我 们 添加 一 个 路 坐标 轴 的 水 平 带 

〈 和 矩形) ， 它 们 是 matplotlib.pyplot.axhspan() 和 

matplotlib.pyplot.axvspan()4!. axhspan() DIA- ia Wymin#llymax Bh Ee 
了 水 平 带 的 宽度 。 同 理 ，axvspan() 方 法 必需 的 xmin 和 xmax 参 数 指 定 了 
垂直 带 的 宽度 。 





3.4.4 补充 说 昌 


图 形 中 的 网 格 属性 默认 是 关闭 的 ， 但 可 以 很 简单 地 打开 和 定制 化 。 
不 带 参 数 调用 matplotlib.pyplot.gridO 会 切换 网 格 的 显示 状态 。 男 外 一 些 
控制 参数 如 下 。 

€ which: 指定 绘制 的 网 格 刻度 类 型 (major、minor 或 者 both) 。 

€ axis: 指定 绘制 哪 组 网 格 线 (both、x 或 者 y) 。 

坐标 轴 通 常 由 matplotlib.pyplot.axis0 控 制 。 坐 标 轴 在 内 部 实现 上 由 
几 个 Python 类 来 表示 。 其 中 一 个 父 类 是 matplotlib.axes.Axes， 包 含 了 操 
作 坐 标 轴 的 大 多 数 方法 。 单 独 一 个 坐标 轴 由 matplotlib.axis.Axis 类 来 表 


示 ，matplotlib.axis. XAxis 表 示 x 轴 ，matplotlib.axis.YAxis 表 示 y 轴 。 

在 做 本 节 练 习 的 过 程 中 ， 我 们 不 需要 这 些 类 。 但 是 重要 的 是 ， 如 果 
我 们 对 更 高 级 的 坐标 轴 控 制 感 兴趣 ， 并 且 在 matplot.pyplot 命名 空间 下 
己 经 不 能 满足 需求 的 时 候 ， 我 们 知道 去 哪里 找 。 





本 节 将 演示 如 何 改 变 线 的 各 种 属性 ， 如 线条 风格 、 颜 色 或 者 宽度 。 
根据 要 表达 的 信息 合理 地 设置 线 型 并 明显 地 区 分 目标 受众 《受众 如 果 是 
年 轻 群 体 ， 可 以 使 用 比较 生动 的 闫 色 ; 如 果 是 上 年 纪 的 人 ， 可 能 需要 使 
用 对 比 更 强烈 的 颜色 〉 能 让 图 表 给 观众 留 下 非常 深刻 的 印象 。 


3.5.1 准备 工作 





虽然 我 们 强调 美化 图 表 的 重要 性 ， 但 首先 我 们 要 学 会 怎样 做 。 

如 有 果 你 对 颜色 匹配 不 是 很 人 敏感， 这 里 有 一 些 免费 和 商业 的 在 线 工 具 
可 以 为 你 生成 颜色 集 。Colorbrewer2 是 最 有 名 的 工具 之 一 ， 其 链接 为 
http://colorbrewer2.org/. 

己 经 有 一 些 针对 数据 可 视 化 中 颜色 使 用 方面 的 严谨 的 研究 在 进行 
中 ， 但 是 解释 其 理论 已 经 超出 了 本 书 的 范围 。 如 果 你 每 天 要 与 更 高 级 的 
可 视 化 打交道 ， 应 当 阅 读 一 下 与 这 些 话 题 相 关 的 资料 。 

















3.5.2 un Ip 





首先 学 习 如 何 改 变 线 的 属性 ， 可 以 通过 不 同 的 方法 来 改变 图 表 中 的 





第 一 个 最 常用 的 方式 是 向 方法 传 入 关键 字 参 数 来 指定 线 型 ， 例 如 
plot()77 1X . 

plot(x, y, linewidth=1.5) 

对 plot0) 方 法 的 调用 返回 一 个 线条 的 实例 


(matplotlib.lines.Line2D〉， 可 以 在 这 个 实例 上 用 一 系列 的 setter 方 法 来 


设置 不 同 的 属性 。 

line, = plot(x, y) 

line.set_linewidth(1.5) 

使 用 过 MATLAB@ 的 人 会 更 习惯 使 用 第 三 种 方式 配置 线条 属性 一 一 
使 用 setp() 方 法 。 

lines = plot(x, y) 

setp(lines, ‘linewidth’, 1.5) 

另 一 种 使 用 setp 的 方式 是 。 

setp(lines, linewidth=1.5) 

不 管 你 喜欢 用 哪 种 方式 来 配置 线 型 ， 选 择 一 种 并 在 整个 项 目 中 《或 
至 少 在 一 个 文件 中 ) 保持 一 致 。 这 样 ， 当 你 《或 者 别人 ) 将 来 再 看 代码 
时 ， 会 更 容易 明白 和 修改 它 。 


3.5.3 工作 原理 


用 来 改变 线条 的 所 有 属性 都 包含 在 matplotlib.lines.Line2D 类 中 ， 表 
3-1 中 列举 了 一 些 属性 。 
表 3-1 


属 性 类 H Hi X 
alpha alpha 值 用 来 设置 混 色 ， 并 不 是 所 有 后 端 都 支持 
color BÈ c 设置 线条 颜色 
设置 破 折 号 序列 ,如 果 sed 为 空 或 者 如 果 seq- 
dashes 以 点 为 单位 的 on/o 任 序列 ”| [None, None], linestyle 将 被 设置 为 


solid 


T TIET 


设置 线条 风格 (也 接受 drawstyles 的 值 ) 
设置 以 点 为 单位 的 线 宽 





linestyle 或 ls 


linewidth 8k lw 
LAISSI E | set 
| DY | "KY | "EH | 
"5^]1**3 "Nox" | * 
' | None | '8' | 
| | 
marker $a [ d 设置 线条 标记 
19 | & |] 2) I! 
roe oq wt p "27 | "Y 
|. 5» Ww oeee jo we 
M^ p NEU [59e 





tuple | Nx2 array ] 


markeredgecolor 或 


任意 matplotlib 颜色 设置 标记 的 边缘 颜色 
mec 
markeredgewidth Bkmew | 以 点 为 单位 的 浮 点 值 设置 以 点 为 单位 的 标记 边缘 宽度 





markerfacecolor 或 


任意 matplotlib 颜色 设置 标记 的 颜色 
mfc 


markersize 或 ms 设置 以 点 为 单位 的 标记 大 小 


['butt' | 'round' | | 设置 实 线 的 线 端 风格 


'projecting'] 


'miter' 'round' 5 arak 
solid joinstyle | | | 设置 实 线 的 连接 风格 
'bevel'] 
visible [True | False] 显示 或 隐藏 artist 


xdata np.array 设置 x 的 np.array 值 


solid capstyle 


设置 破 折 号 序列 各 段 的 宽度 。 举 个 例子 : 如果 dashes 序列 为 
[1,5,10]， 那 么 第 一 段 线 为 1 个 点 的 宽度 ， 接 下 来 的 空白 区 为 5 个 点 的 宽 
度 ， 再 接 下 来 的 线 为 10 个 点 的 宽度 ， 以 此 类 推 ， 当 序列 到 最 后 一 个 值 





后 ， 再 按 第 一 个 值 设 定 下 一 段 的 宽度 。 


属 性 类 W 
ydata 
Zorder 





下 表 展 示 了 一 些 线条 风格 。 
eal West ee 

tira, 点 划 线 

下 图 (表格) 展示 了 线条 的 标记 : 

















标 记 


描 述 
设置 y 的 np.array 值 
为 artist 设置 z 轴 顺 序 ， 低 zorder 的 
artist 会 先 绘制 
如 果 在 屏幕 上 x 轴 水 平生 右 ，” 轴 垂直 向 上 ， 
那么 z 轴 将 指向 观察 者 。 这 样 ，0 表示 在 屏幕 
上 ，1 表示 上 面 的 一 层 ， 以 此 类 推 。 


正方 形 


ag 
ÆJ 





ür 六 边 形 1 "er 
'H' 六 边 形 2 ici 


小 葵 形 
一 角 朝 下 的 三 角形 





'", 'None',' ', None | 无 xd 一 角 朝 左 的 三 角形 
'8' 八 边 形 oe 一 角 朝 右 的 三 角形 
"et 五 边 形 一 角 朝 上 的 三 角形 


"ye 像素 


颜色 


X 


可 以 通过 调用 matplotlib.pyplot.colors() 得 到 matplotlib 支 持 的 所 有 颜 


色 ， 如 表 3-2 所 示 。 


表 3-2 





别 名 Bil 色 
b 绿色 
续 表 
别 名 Bll 色 别 名 Bll 色 
É 红色 y 黄色 
c 青色 K 黑色 
m 洋红 色 w 白色 








这 些 颜 色 可 以 被 用 在 matplotlib 中 带 颜 色 参 数 的 不 同 的 方法 中 。 
如 果 这 些 基 本 的 颜色 不 够 用 一 一 随 着 进一步 深入 ， 肯 定 会 不 够 用 
可 以 用 两 种 其 他 方式 来 定义 颜色 值 。 一 种 方法 是 使 用 HTML 十 六 进 
制 字 符 串 。 

color = '#eeefff' 

还 可 以 使 用 合法 的 HTML 颜色 名 字 Cred’, 'chartreuse’) 。 也 可 以 传 
入 一 个 归 一 化 到 [0, 1185 RGB 元 组 。 

color = (0.3, 0.3, 0.4) 

很 多 方法 接受 颜色 参数 ， 如 title()。 

title('Title in a custom color’, color='#123456') 

背景 

通过 向 如 matplotlib.pyplot.axes() 或 者 matplotlib.pyplot.subplot() 这 样 
的 方法 提供 一 个 axisbg 参 数 ， 我 们 可 以 指定 坐标 轴 的 背景 色 。 

subplot(111, axisbg=(0.1843, 0.3098, 0.3098)) 











本 继续 学 习 如 何 设置 坐标 轴 和 线条 属性 ， 并 向 图 形 和 图 表 中 添加 
更 多 的 数据 。 


3.6.1 准备 工作 


让 我 们 先 了 解 一 下 图 形 〈figure) 和 子 区 局 (subplots) 。 

在 matplotlib 中 ， 调 用 figure0 会 显 式 地 创建 一 个 图 形 ， 表 示 一 个 图 
形 用 户 界 面 窗 口 。 通 过 调用 ”plot0 或 类 似 的 方法 会 隐 式 地 创建 网 形 。 这 
对 于 简单 的 图 表 没 有 问题 ， 但 是 对 于 更 高 级 的 应 用 ， 能 显示 创建 图 形 并 
得 到 实例 的 引用 是 非常 有 用 的 。 

一 个 图 形 包括 一 个 或 多 个 子 区 。 子 区 能 以 规则 网 格 的 方式 排列 
plot。 我 们 已 经 使 用 过 subplot0) 方 法 ， 在 调用 时 指定 所 有 plot 的 行 数 和 列 
数 以 及 要 操作 的 plot 的 序号 。 

如 果 需 要 更 多 的 控制 ， 我 们 需要 使 用 matplotlib.axes.Axes 类 的 坐标 
轴 实 例 。 这 样 可 以 把 plot 放 置 在 图 形 窗口 中 的 任意 位 置 ， 例 如 可 以 把 一 
个 小 的 plot 放 在 一 个 大 的 plot 中 。 





3.6.2 un pu 








刻度 是 图 形 的 一 部 分 ， 由 刻度 定位 器 Ctick locator) 指定 刻度 
所 在 的 位 置 一 一 和 刻度 格式 器 (tick formatter) 指定 刻度 显示 的 样 


式 一 一 组 成 。 刻 度 有 主 刻 度 (major ticks) 和 次 刻度 (minor ticks) ， 默 
认 不 显示 次 刻度 。 更 重要 的 是 ， 主 刻度 和 次 刻度 可 以 被 独立 地 指定 位 置 
和 格式 化 。 





我 们 可 以 使 用 ”matplotlib.pyplot.locator_params() 方 法 控制 刻度 定位 
虱 的 行为 。 尺 管 刻度 位 置 通常 会 自动 被 确定 下 来 ， 我 们 还 是 可 以 控制 刻 
度 的 数目 ， 以 及 在 plot 比 较 小 时 使 用 一 个 紧凑 视图 (tight view) 。 

from pylab import * 

# get current axis 

ax = gca() 

# set view to tight, and maximum number of tick intervals to 10 

ax.locator_params(tight=True, nbins = 10) 

# generate 100 normal distribution values 

ax.plot(np.random.normal(10, .1, 100)) 

show() 

生成 如 图 3-8 所 示 的 图 表 。 

我 们 可 以 看 到 x HA y 轴 是 如 何 被 切 分 的 ， 以 及 数值 是 如 何 显示 
的 。 我 们 也 可 以 用 locator 类 完成 相同 的 设置 。 下 面 代码 的 意思 是 设置 主 
定位 器 为 10 的 倍数 。 

ax.xaxis.set major locator(matplotlib.ticker.MultipleLocator(10)) 

APES TAS AY AC SSP a a TE SE CE BE) AY 
示 方 式 。 例 如 ， 用 matplotlib.ticker.FormatStrFormatter 可 以 方便 地 指 
定 '%2.1f 或 者 '"%1.1f cm' 的 字符 串 格式 作为 刻度 标签 。 








图 3-8 
让 我 们 看 一 个 使 用 dates 模 块 的 例子 。 








matplotlib 用 浮 点 值 表示 日 期 ， 其 值 为 从 0001-01-01 UTC 起 的 天 数 
加 1。 因 此 ，0001-01-01 UTC 06:00 的 值 为 1.25 。 

然后 ， 我 们 可 以 用 matplotlib.dates.date2num()、 
matplotlib.dates.num2 date() 和 matplotlib.dates.drange() 这 样 的 helper 方 法 对 
日 期 进行 不 同形 式 的 转换 。 

再 看 一 个 例子 : 


from pylab import * 


import matplotlib as mpl 

import datetime 

fig = figure() 

# get Current axis 

ax = gca() 

# set some daterange 

start = datetime.datetime(2013, 01, 01) 

stop = datetime.datetime(2013, 12, 31) 

delta = datetime.timedelta(days = 1) 

# convert dates for matplotlib 

dates = mpl.dates.drange(start, stop, delta) 

# generate some random values 

values = np.random.rand(len(dates)) 

ax = gca() 

# create plot with dates 

ax.plot date(dates, values, linestyle='-', marker=") 

# specify formater 

date format = mpl.dates.DateFormatter('96 Y-%m-%d') 
# apply formater 
ax.xaxis.set major formatter(date format) 

# autoformat date labels 

# rotates labels by 30 degrees by default 

# use rotate param to specify different rotation degree 
# use bottom param to give more room to date labels 
fig.autofmt  xdate() 

show() 

上 面 的 代码 生成 如 图 3-9 所 示 的 图 形 。 


a 
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图 3-9 


3.7 Ys IR THE fl 


EE HPURITIE AT RT E DE SARE T BUS FEE BU PI. XIX IS SET plotZs 
MARFA Me AN A fe IR, HELE sd: MRA) 更 容易 理解 。 
本 节 将 演示 如 何 对 图 形 中 的 特定 点 进行 注解 ， 以 及 如 何 创建 和 放置 数据 
图 例 。 





3.7.1 准备 工作 


请 问 ， 有 多 少 次 你 看 着 一 个 图 表 却 不 知道 它 要 表达 什么 ? 大 多 数 情 
况 下 ， 报 纸 和 其 他 一 些 日 刊 或 者 周刊 中 的 图 表 都 没有 恰当 的 图 例 ， 这 让 
读者 对 图 表 有 了 各 种 解读 ， 因 此 会 让 读者 产生 卜 义 ， 从 而 增加 了 出 错 的 
可 能 性 。 


3.7.2 un p 


让 我 们 用 下 面 的 例子 来 演示 一 下 如 何 添加 图 例 和 注解 。 
from matplotlib.pyplot import * 

# generate different normal distributions 

x1 = np.random.normal(30, 3, 100) 

x2 = np.random.normal(20, 2, 100) 

x3 7 np.random.normal(10, 3, 100) 

# plot them 

plot(x1, label-'plot') 

plot(x2, label-'2nd plot") 

plot(x3, label-'last plot") 


# generate a legend box 
legend(bbox_to_anchor=(0., 1.02, 1., .102), loc=3, 
ncol=3, mode="expand", borderaxespad=0.) 
# annotate an important value 
annotate(" Important value", (55,20), xycoords-'data', 
xytext=(5, 38), 
arrowprops=dict(arrowstyle='->')) 
show() 
上 述 代 码 生成 如 图 3-10 所 示 的 图 表 。 
我 们 所 做 的 是 为 每 个 plot 指 定 了 一 个 字符 串 标 签 ， 这 样 legendO 会 把 
它们 添加 a 到 图 例 框 中 。 
我 们 通过 指定 loc 参 数 确 定 图 例 框 的 位 置 。 这 个 参数 是 可 选 的 ， 但 
是 为 了 不 让 图 侈 框 覆 盖 图 表 中 的 线 ， 我 们 想 为 其 指定 一 个 位 置 。 








plot 2nd plot last plot 














3.73 工作 原理 


表 3-3 列 出 了 所 有 位 置 参 数 。 

表 3-3 

upper right il center left 

upper left 2 center right 

如 果 不 想 在 图 例 中 显示 标签 ， 可 以 将 标签 设置 为 nolegend . 

对 于 上 例 中 的 图 例 ， 我 们 设置 列 数 为 ”ncol=3， 设 置 位 置 为 ”lower 
left。 指 定 边 界 框 (bbox_to_anchor) 的 起 始 位 置 为 (0.0, 1.02)， 并 且 设 置 
宽度 为 1， 高 度 为 0.102。 这 些 值 都 是 基于 归 一 化 轴 坐 标 系 。 参 数 mode 可 
以 设置 为 None 或 者 expand， 当 为 expand 时 ， 图 例 框 会 水 平 扩展 至 整个 坐 
标 轴 区 域 。 参 数 borderaxespad 指 定 了 坐标 轴 和 图 例 边界 之 间 的 间距 。 

对 于 注解 ， 我 们 在 plot 中 为 xy 多 坐标 位 置 的 数据 点 添加 了 一 个 字符 
串 描 述 。 通 过 设置 xycoord = 'data'， 可 以 指定 注解 和 数据 使 用 相同 的 坐 
标 系 。 注 解 文 本 的 起 始 位 置 通过 xytext 指 定 。 

箭头 由 xytext 指 向 xy 坐标 位 置 。arrowprops 字 典 中 定义 了 很 多 箭头 属 
性 。 在 这 个 例子 中 ， 我 们 用 arrowstyle 来 指定 箭头 的 风格 。 
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3.8 移动 轴线 于 


本 节 将 演示 如 何 移动 轴线 到 图 中 央 。 
轴线 定义 了 数据 区 域 的 边界 ， 把 坐标 轴 刻 度 标 记 连 接 起 来 。 一 共有 





四 个 轴线 ， 可 以 把 它们 放置 在 任何 位 置 。 默 认 情 况 下 ， 它 们 被 放置 在 坐 
标 轴 的 边界 ， 因 此 我 们 会 看 到 数据 图 表 有 一 个 框 。 





3.8.1 un pa: 


为 了 把 轴线 移 到 图 中 央 ， 需 要 把 其 中 两 个 轴线 隐藏 起 来 《设置 color 


为 none) 。 然 后 ， 移 动 另 外 两 个 到 坐标 〈0，0) 。 坐 标 为 数据 空间 坐 


标 。 





做 法 如 下 面 代码 所 示 。 

import matplotlib.pyplot as plt 

import numpy as np 

x = np.linspace(-np.pi, np.pi, 500, endpoint=True) 
y = np.sin(x) 

plt.plot(x, y) 

ax — plt.gca() 

# hide two spines 
ax.spines['right'].set_color(‘none’) 
ax.spines['top'].set_color(‘none’) 

# move bottom and left spine to 0,0 
ax.spines['bottom'].set position(('data',0)) 


ax.spines|['left'].set position(('data',0)) 


# move ticks positions 
ax.xaxis.set ticks position(' bottom") 
ax.yaxis.set ticks position( left") 
plt.show() 

生成 如 图 3-11 所 示 的 图 形 。 











图 3-11 
3.8.2 工作 原理 


这 上 段 代 码 是 取决 于 所 绘制 的 图 形 的 。 我 们 把 轴线 移 到 位 置 CO, 
0) ， 绘 制 了 一 个 正弦 函数 曲线 。(0，0) 是 图 形 的 中 心 。 

尽管 如 此 ， 这 段 代码 说 明了 如 何 把 轴线 移动 到 一 个 特定 位 置 ， 以 及 
怎样 去 掉 不 想 显 示 的 轴线 。 


3.8.3 补充 说 有 


另外 ， 轴 线 可 以 被 限制 在 数据 结束 的 地 方 结束 ， 例 如 调用 
set smart bounds (True)。 在 这 种 情况 下 ，matplotlib 会 尝试 以 一 种 复杂 
的 方式 设置 边界 ， 例 如 处 理 题 倒 的 界限 ， 或 者 在 数据 延伸 出 视 岁 的 情况 
T BU ZR AK Dads WAS 


3.9 绘制 直方 图 


直方 图 非常 简单 ， 但 重要 的 是 用 它 来 显示 正确 的 数据 。 目 前 我 们 仅 
涉及 2D 直 方 图 。 

直方 图 被 用 于 可 视 化 数据 的 分 布 估计 。 通 常 ， 在 谈论 直方 图 时 我 们 
会 使 用 一 些 术语 。 表 示 一 定 间隔 下 数据 点 频率 的 垂直 矩形 称 为 bn。bin 
以 固定 的 间隔 创建 ， 因 此 直方 图 的 总 面积 等 于 数据 点 的 数量 。 

直方 图 可 以 显示 数据 的 相对 频率 ， 而 不 是 使 用 数据 的 绝对 值 。 在 这 
种 情况 下 ， 总 面积 就 等 于 1。 

直方 图 经 常 被 用 在 图 像 处 理 软件 中 ， 作 为 可 视 化 图 像 属性 〈 如 给 定 
颜色 通道 上 光 的 分 布 ) 的 一 种 方式 。 这 些 图 像 直 方 图 进一步 可 以 应 用 在 
计算 机 视觉 算法 来 检测 峰值 ， 用 来 辅助 进行 边缘 检测 、 图 像 分 割 等 。 

在 第 5 章 “3D 可 视 化 ”中 ， 会 有 几 小 节 来 介绍 3D 直 方 图 。 


3.9.1 准备 工作 























我 们 想得到 正确 的 bin 数 量 ， 但 是 因为 没有 严格 的 规则 来 说 明 什 么 
是 最 优 bin 数 量 ， 所 以 很 难 做 到 这 一 点 。 在 怎样 计算 bin 数 量 上 有 几 种 不 
同 的 理论 ， 最 简单 的 一 个 是 基于 上 取 整 〈ceiling) 函数 ， 这 时 bins(k) 等 
于 ceiling (max(x) — min(xyh), ELH x 是 绘制 的 数据 集合 ，h 为 期 望 的 bin 
宽度 。 这 只 是 一 种 选项 ， 因 为 正确 显示 数据 的 bin 数 量 取 决 于 真实 的 数 
据 分 布 。 





3.9.2 un He 


如 果 调 用 matplotlib.pyploy.histO 来 创建 直方 图 ， 我 们 需要 传 入 一 些 


参数 ， 下 面 是 一 些 最 重要 的 参数 。 

€ bins: 可 以 是 一 个 bin 数 量 的 整数 值 ， 也 可 以 是 表示 bin 的 一 个 序 
列 。 默 认 值 为 10。 

@ range: bin 的 范围 ， 当 bins 参数 为 序列 时 ， 此 参数 无 效 。 范 围 外 
的 值 将 被 忽略 挥 ， 默 认 值 为 None。 

* normed: 如 果 值 为 True， 直 方 图 的 值 将 进行 归 一 化 
(normalized) 处 理 ， 形 成 概率 密度 。 默 认 值 为 False。 

€ histtype: 默认 为 bar 类 型 的 直方 图 。 其 他 选项 有 以 下 几 个 。 

e barstacked: 用 于 多 种 数据 的 堆 登 直方 图 。 

estep: 创建 未 填充 的 线形 图 。 

e stepfilled: 创建 默认 填充 的 线形 图 。histtype 的 默认 值 为 bar。 

€ align: 用 于 bin 边 界 之 间 和 矩形 条 的 居中 设置 。 默 认 值 为 mid， 其 他 
值 为 left 和 right。 

* color: 指定 直方 网 的 颜色 。 可 以 是 单一 颜色 值 或 者 颜色 的 序 
列 。 如 果 指 定 了 多 个 数据 集合 ， 颜 色 序 列 将 会 设置 为 相同 的 顺序 。 如 果 
未 指定 ， 将 会 使 用 一 个 默认 的 线条 颜色 。 

€ orientation: 通过 设置 orientation 为 horizontal 创 建 水 平 直方 图 。 
默认 值 为 vertical。 

下 面 的 代码 演示 了 histO 的 用 法 。 


import numpy as np 











import matplotlib.pyplot as plt 

mu = 100 

sigma = 15 

x = np.random.normal(mu, sigma, 10000) 
ax = plt.gca() 

# the histogram of the data 


ax.hist(x, bins=35, color-'r) 


ax.set_xlabel('Values') 

ax.set. ylabel('Frequency?) 

ax.set_title(r'$\mathrm {Histogram:}\ \mu=%d,\ \sigma=%d$' 96 (mu, 
sigma)) 

plt.show() 

以 上 代码 为 数据 样本 创建 了 一 个 简洁 的 红色 直方 图 ， 如 图 3-12 所 


Histogram: u —100, o=15 





3.9.3 工作 原理 


先生 成 一 些 正 态 分 布 数 据 ， 然 后 为 直方 图 指定 bin 的 数量 为 35， 通 
过 设置 normed 为 Trme (或 1) 进行 归 一 化 处 理 ， 最 后 设置 color 为 red(D。 

接 下 来 ， 为 图 形 添加 标签 和 标题 。 这 里 我 们 利用 matplotlib 对 
LaTex 表达 式 的 支持 ， 在 Python 格式 化 字符 中 加 入 了 数学 符号 。 





3.10 绘制 误差 条 形 图 
本 节 将 展示 如 何 创建 柱状 图 以 及 如 何 绘制 误差 条 。 
3.10.1 准备 工作 





可 以 用 误差 条 来 可 视 化 数据 集合 中 的 测量 不 确定 度 Cuncertainty of 
measurement) 或 者 指出 错误 。 误 差 条 可 以 很 容易 地 表示 误差 侦 离 数据 
集合 的 情况 。 它 们 可 以 显示 一 个 标准 差 (standard deviation) 、 一 个 标 
(Ei Ze (standard error) 或 者 95% 的 置信 区 间 (confidence interval) 。 
为 在 表示 上 没有 统一 标准 ， 所 以 总 是 需要 显 式 地 表明 误差 条 显示 的 是 哪 
一 种 值 〈 误 差 ) 。 实 验 科 学 〈experimental sciences) 领域 的 大 多 数论 文 
都 应 该 在 描述 数据 精度 的 时 候 包 含 误差 条 。 

















3.10.2 t (EAD OR 


虽然 只 有 两 个 必 选 参数 
用 其 他 的 参数 。 介 绍 如 下 。 

€ width: 给 定 误 差 条 的 宽度 ， 默 认 值 是 0.8. 

€ bottom: WRJ ÆI ” bottom， 其 值 会 加 到 高 度 中 ， 默 认 值 为 
None。 

€ edgecolor: 给 定 误差 条 边界 颜色 。 

€ ecolor: 指定 误差 条 的 颜色 。 

€ linewidth: 误差 条 边界 宽度 ， 可 以 设 为 None《〈 默 认 值 ) 和 0 此 
时 误差 条 边界 将 不 显示 出 来 ) 。 

orientation: 有 vertical 和 horizontal 两 个 值 。 


left 和 height， 但 是 ， 我 们 经 常会 需要 使 








€ xerr 和 yer: 用 于 在 柱状 图 上 生成 误差 条 。 
一 些 可 选 参数 (color、edgecolor、linewidth、xerr 和 和 yerr〉 可 以 是 单 
一 值 ， 也 可 以 是 和 误差 条 数目 相同 长 度 的 序列 。 


3.10.3 工作 原理 


让 我 们 用 一 个 例子 来 说 明 误 差 条 形 图 的 绘制 。 


import numpy as np 





import matplotlib.pyplot as plt 

# generate number of measurements 

x 7 np.arange(0, 10, 1) 

# values computed from "measured" 

y = np.log(x) 

# add some error samples from standard normal distribution 
xe = 0.1 * np.abs(np.random.randn(len(y))) 

# draw and show errorbar 

plt.bar(x, y, yerr=xe, width=0.4, align-'center', ecolor-'r, 
color-'cyan', label-'experiment #1'); 

# give some explainations 

plt.xlabel('# measurement") 

plt.ylabel( "Measured values") 

plt.title Measurements") 

plt.legend(loc-'upper left") 

plt.show() 

上 述 代码 生成 如 图 3-13 所 示 的 图 形 。 


Measurements 





图 3-13 
为 了 绘制 误差 条 ， 需 要 有 一 些 度量 值 (x); 对 于 每 一 个 度量 值 计算 出 
的 值 (y)， 我 们 得 出 了 误差 (xe)。 
这 里 ， 我 们 用 NumPy 库 来 生成 和 计算 值 。 标 准 分 布 已 经 能 很 好 地 满 
足 演 示 的 需要 了 ， 但 是 如 果 正 好 预先 知道 你 的 数据 分 布 ， 可 以 做 一 些 可 
视 化 原型 来 尝试 一 下 不 同 的 视图 布局 ， 以 便 找 到 展示 信息 的 最 佳 选择 。 
如 果 正 在 准备 为 一 个 黑白 版 的 媒介 做 可 视 化 ， 男 一 个 有 意思 的 选择 
是 使 用 阴影 线 (hatch) 。 阴 影 线 的 值 如 表 3-4 所 示 。 
表 3-4 


























3.10.4 补充 说 日 


上 文 刚 用 到 的 误差 条 叫 作 对 称 误差 条 。 如 果 数 据 集合 的 性 质 是 误差 
在 两 个 方向 上 《 正 向 和 负 向 ) 不 同 ， 也 可 以 用 非 对 称 误差 条 来 表示 。 

非 对 称 误差 条 必须 用 一 个 两 个 元 素 的 列表 (比如 一 个 二 维 数组 ) 来 
指定 xerr 和 yerr， 其 中 第 一 个 列表 包含 负 问 误差 的 值 ， 第 二 个 包含 正 问 
误差 的 值 。 





3.11 绘制 饼 图 


饼 图 在 很 多 方面 很 特别 ， 最 重要 的 一 点 是 它 显 示 的 数据 集合 加 起 来 
必须 等 于 100%， 人 否则 它 就 是 无 意义 的 、 无 效 的 。 


3.11.1 准备 工作 
饼 图 揪 述 数值 的 比例 关系 ， 其 中 每 个 局 区 的 弧 长 大 小 为 其 所 表示 的 


数量 的 比例 。 

饼 图 很 紧凑 ， 看 上 去 很 有 美感 ， 但 是 它们 也 因为 难以 对 数量 进行 比 
较 而 备 受 批评 。 DIN ATA IREE EB COLA) 的 广 
TVA — EME KARERA ae SE TTE eee ALTA HE, AA rf REA 
我 们 对 于 所 呈现 数据 得 出 的 结论 。 

下 面 演 示 用 饼 图 呈现 数据 的 不 同方 式 。 








3.11.2 EF TE 


Hs. 8) —^-PriBBJATARXUFA Cexploded pie chart) 。 
from pylab import * 

# make a square figure and axes 

figure(1, figsize=(6,6)) 

ax = axes([0.1, 0.1, 0.8, 0.8]) 

# the slices will be ordered 

# and plotted counter-clockwise. 

labels = 'Spring', Summer, 'Autumn', 'Winter' 


# fractions are either x/sum(x) or x if sum(x) <= 1 


= [15, 30, 45, 10] 
# explode must be len(x) sequence or None 
explode=(0.1, 0.1, 0.1, 0.1) 
pie(x, explode=explode, labels=labels, 
autopct="%1.1f%%', startangle=67) 
title'Rainy days by season’) 
show() 
饼 图 如 果 绘 制 在 一 个 正方 形 的 图 表 中 并 且 有 正方 形 的 坐标 轴 ， 看 上 
去 会 非常 漂亮 。 
饼 图 的 每 部 分 定义 为 x/sum(x)， 或 者 x if sum(x) <= 1。 通 过 给 定 一 
个 分 裂 序列 ， 可 以 获得 分 裂 的 效果 ， 其 中 每 一 个 元 素 表示 每 个 圆 孤 间 仿 
移 量 ， 为 半径 的 百分比 。 用 autopct 参 数 来 格式 化 绘制 在 圆 弧 中 的 标签 
标签 可 以 是 一 个 格式 化 字符 串 或 者 是 一 个 可 调用 的 对 象 〈 函 数 ) 。 
我 们 也 可 以 使 用 一 个 布尔 值 的 阴影 参数 给 饼 图 添加 阴影 效果 。 
如 果 没 有 指定 startangle， 刷 区 将 从 x AH CARE 00 开始 逆 时 针 排 
列 ， 如 果 指 定 atartangle 的 值 为 90， 饼 图 将 从 y 轴 开始 。 
绘制 出 的 饼 图 如 图 3-14 所 示 。 





Rainy days by season 
Spring 





图 3-14 


3.12 ZA fill Ji A DX Jay [Dn 


本 节 将 展示 如 何 对 曲线 下 面 的 区 域 或 者 两 个 曲线 之 间 的 区 域 进行 填 
Fo 


3.12.1 准备 工作 


matplotlib 库 允许 我 们 对 曲线 间或 者 曲线 下 面 的 区 域 填充 颜色 ， 这 样 
就 可 以 向 读者 显示 那 部 分 区 域 的 值 。 有 些 时 候 ， 这 对 读者 《观察 者 ) 理 
解 给 定 的 特定 信息 是 非常 有 必要 的 。 








3.12.2 PEED UE 


下 面 是 一 个 关于 如 何 填 充 两 个 轮廓 线 之 间 的 区 域 的 例子 。 
from matplotlib.pyplot import figure, show, gca 

import numpy as np 

x = np.arange(0.0, 2, 0.01) 

# two different signals are measured 

y1 = np.sin(2*np.pi*x) 

y2 = 1.2*np.sin(4*np.pi*x) 

fig = figure() 

ax = gca() 

# plot and 

# fill between y1 and y2 where a logical condition is met 
ax.plot(x, y1, x, y2, color-'black') 


ax.fill_between(x, yl, y2, where-y2»-y1,  facecolor-'darkblue', 


interpolate= True) 

ax.fill_between(x, yl, y2, where=y2<=y1， facecolor='deeppink', 
interpolate= True) 

ax.set_title(‘filled between") 

show() 


31123 工作 有 原理 


在 生成 预定 义 间隔 的 随机 信号 之 后 ， 用 第 规 的 plot(0 方 法 绘制 出 这 
两 个 信号 的 图 形 。 然 后 ， 调 用 fl_between0 并 传 入 所 需 的 必 选 参数 。 

如 图 3-15 所 示 ， 人 1_between() 方 法 使 用 x 为 定位 点 选取 y (A Cyl, 
y2) ， 然 后 用 几 种 预定 义 的 颜色 绘制 出 多 边 形 。 


filled between 











图 3-15 
用 where 参 数 指定 一 个 条 件 来 填充 曲线 ，where 参 数 接受 布尔 值 〈 可 
以 是 表达 式 ) ， 这 样 束 只 会 填充 满足 where 条 件 的 区 域 。 


3.12.4 补充 说 日 


像 许 多 其 他 用 于 绘图 的 函数 一 样 ，fill_between() 方 法 也 接收 许多 参 
数 ， 比 如 hatch ”指定 填充 的 样式 蔡 代 颜色 〉 和 线条 选项 (inewidth 和 
linestyle) 。 

男 外 一 个 方法 是 ” fil]_betweenx()， 该 方法 有 相似 的 填充 特性 ， 但 是 
它 是 针对 水 平 曲线 的 。 

更 通用 的 fil0) 方 法 提供 了 对 任意 多 边 形 填充 颜色 或 者 阴影 线 的 功 
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3.13 绘制 再 彩色 标记 的 散 点 


如 有 果 有 两 个 变量 ， 并 且 想 标记 出 它们 之 间 的 相关 关系 
(correlation) ， 散 点 图 是 一 种 解决 方案 。 

这 种 类 型 的 图 形 也 非常 有 用 ， 它 可 以 作为 更 高 级 的 多 维 数 据 可 视 化 
的 基础 ， 比 如 绘制 散 点 图 矩阵 (scatter plot matrix) o 


3.13.1 准备 工作 


散 点 图 显示 两 组 数据 的 值 。 数 据 可 视 化 的 工作 由 一 组 并 不 由 线条 连 
接 的 点 完成 。 每 个 点 的 坐标 位 置 由 变量 的 值 决定 。 一 个 变量 是 自 变 量 
(或 称 为 无 关 变 量 ，independent variable) ， 另 一 个 是 应 变量 〈 或 称 为 
相关 变量 ，dependent variable) 。 应 变量 通常 绘制 在 y HHL. 




















3.13.2 $E OR 


下 述 代码 绘制 了 两 幅 图 ， 一 个 是 不 相关 数据 ， 男 一 个 是 强 正 相 关 数 
据 (strong positive correlation) 。 

import matplotlib.pyplot as plt 

import numpy as np 

# generate x values 

x = np.random.randn(1000) 

# random measurements, no correlation 

y1 = np.random.randn(len(x)) 

# strong correlation 


y2 = 1.2 + np.exp(x) 


ax1 = plt.subplot(121) 

plt.scatter(x, y1, color-'indigo', alpha=0.3, edgecolors-'white', 

label='no correl') 

plt.xlabel(‘no correlation’) 

plt.grid(True) 

plt.legend() 

ax2 = plt.subplot(122, sharey-ax1, sharex-ax1) 

plt.scatter(x, y2, color-'green', alpha=0.3, edgecolors-'grey', 

label='correl') 

plt.xlabel('strong correlation") 

plt.grid(True) 

plt.legend() 

plt.show() 

在 这 里 ， 我 们 也 使 用 了 很 多 参数 ， 如 用 来 设置 图 形 颜色 的 color、 用 
来 设置 点 状 标记 《默认 是 circle) 的 marker、alpha (alpha HE) 、 
edgecolors〈 标 记 的 边界 颜色 ) 和 ]label 〈 用 于 图 例 框 ) 。 

得 到 如 图 3-16 所 示 的 图 形 。 


-1 0 1 
Strong correlation 





图 3-16 
3.13.3 工作 原理 


散 点 图 通常 在 应 用 拟 合 回归 函数 之 前 绘制 ， 用 来 识别 两 个 变量 间 的 
关联 。 它 很 好 地 呈现 了 相关 性 的 视觉 画面 ， 尤 其 是 对 于 非 线 性 关系 的 数 
据 。matplotlib 提 供 的 scatter() 函 数 用 来 绘制 与 x 相同 长 度 的 一 维 数组 

(unidimensional array) y 的 散 点 图 。 
































Bar 学 习 更 多 [e ffi 


在 本 章 中 ， 我 们 将 学 习 以 下 内 容 。 
€ 设置 坐标 轴 标 签 的 透明 度 和 大 小 
为 图 表 线 条 添加 阴影 

€ 15 E SITAS e 

€ 使 用 subplots CF IX) 

€ 定制 化 网 格 

€ 创建 等 高 线 图 

€ 填充 图 表 底 层 区 域 

€ 绘制 极 线 图 

€ 使 用 极 坐标 图 可 视 化 文件 系统 树 





在 本 章 中 ， 我 们 会 研究 matplotib 库 的 一 些 更 高 级 的 特性 。 我 们 将 介 
绍 更 多 的 技术 ， 来 看 看 如 何 得 到 满意 的 可 视 化 效果 。 

有 时 简单 的 图 表 不 能 够 充分 展现 数据 ， 本 章 我 们 会 寻求 数据 展现 中 
的 一 些 重要 问题 的 解决 方案 。 我 们 将 尝试 使 用 多 种 类 型 的 图 表 ， 或 者 创 
建 不 同 图 表 的 混合 体 来 满足 一 些 高 级 数据 结构 和 特定 的 展现 需求 。 








4.2 设置 坐标 轴 标 签 的 透明 上 度 和 大 小 


Axes 标 签 对 于 读者 理解 图 表 非 常 重要， 它 描 述 了 图 表 中 展现 的 数据 
内 容 。 通 过 回 axes 添 加 标签， 我 们 能 够 帮助 读者 更 准确 地 理解 图 表 所 表 
达 的 信息 。 


4.2.1 准备 工 


在 深入 分 析 代 码 之 前 ， 重 要 的 是 先 了 解 matplotlib 是 如 何 组织 图 表 
的 。 

最 上 层 是 一 个 Figure 实 例 ， 包 含 了 所 有 可 见 的 和 其 他 一 些 不 可 见 的 
内 容 。 该 Figure 实 例 包 含 了 一 个 Axes 实 例 字段 Figure.axes。Axes 实 例 几 
平 包 含 了 我 们 所 关心 的 所 有 东西 ， 如 所 有 的 线 、 点 、 刻 度 和 标签 。 
此 ， 当 调用 plot(0 方 法 时 ， 就 会 同 Axes.lines 列 表 添 加 一 个 线条 的 实例 
(matplotlib.lines.Line2D) 。 如 果 绘 制 了 一 个 直方 图 〈 通 过 调用 
hist) ， 就 会 向 Axes.patches 列 表 添 加 许多 和 矩形 (“patches 山 * 是 从 
MATLAB MYM 继 承 来 的 一 个 术语 ， 表 示 “ 颜 色 补 片 ” 的 概念 ) 。 

Axes 实 例 也 包含 了 XAxis 和 YAxis 实 例 的 引用 ， 分 别 指向 相应 的 x 轴 
和 y 轴 。 JUDI vds Hotell 标签 、 刻 度 、 刻 度 标 签 en 
格式 器 的 绘制 ， 我 们 可 以 通过 Axes.xaxis 和 Axes.yaxis 分 别 引 用 它们 。 

实 不 必 按 照 前 面 所 说 的 方式 通过 XAxis 或 YAxis 实 例 得 到 标签 对 象 ， A 
为 matplotlib 提 供 了 一 个 helper 方 法 《实际 上 是 一 个 捷径 ) RIKI ER 
它们 是 matplotlib.pyplot.xlabel0 和 matplotlib. pyplot.ylabel(). 





4.2.2 un 步骤 


我 们 现在 将 要 创建 一 个 新 的 图 表 ， 然 后 在 其 上 面 进行 如 下 操作 。 

1. 创 建 一 个 基于 一 些 随 机 生成 的 数据 的 plot。 

2. 添 加 title 和 axes 标 签 。 

3. 添 加 alpha 设 置 。 

4. 回 title 和 axes 标 签 添加 阴影 效 末 。 

import matplotlib.pyplot as plt 

from matplotlib import patheffects 

import numpy as np 

data = np.random.randn(70) 

fontsize = 18 

plt.plot(data) 

title = "This is figure title" 

x_label = "This is x axis label" 

y_label = "This is y axis label" 

title_text_obj = plt.title(title, fontsize=fontsize, 

verticalalignment-'bottom") 

title text obj.set path effects([patheffects. 

withSimplePatchShadow()]) 

# offset xy -- set the 'angle' of the shadow 

# shadow_rgbFace -- set the color of the shadow 

# patch_alpha -- setup the transparency of the shadow 

offset_xy = (1, -1) 

rgbRed = (1.0,0.0,0.0) 

alpha = 0.8 

# Customize shadow properties 

pe = patheffects.withSimplePatchShadow(offset xy = offset xy, 
shadow. rgbFace = rgbRed, 


patch_alpha = alpha) 
# apply them to the xaxis and yaxis labels 
xlabel_obj = plt.xlabel(x_label, fontsize=fontsize, alpha=0.5) 
xlabel_obj.set_path_effects([pe]) 
ylabel_obj = plt.ylabel(y_label, fontsize=fontsize, alpha=0.5) 
ylabel_obj.set_path_effects([pe]) 
plt.show() 


4.2.3 工作 原理 


我 们 已 经 知道 了 所 有 熟悉 的 imports、 生 成 数据 的 代码 部 分 和 基本 的 
绘图 技术 ， 因 此 我 们 会 省 略 它们 。 如 果 你 不 懂 示 例 代 码 的 前 几 行 ， 请 参 
考 第 2 章 的 “了解 你 的 数据 ”一 节 和 第 3 章 的 “绘制 图 形 并 定制 化 ”小节 。 

在 绘制 完 数据 集 合 的 图 表 后 ， 接 下 来 准备 添加 标题 和 标签 ， 并 定制 
化 它们 的 外 观 。 

首先 ， 添 加 一 个 标题 。 然 后 设置 标题 字体 的 大 小 ， 并 设置 标题 文本 
的 垂直 对 齐 方式 为 bottom。 如 果 不 带 参数 地 调用 
matplotlib.patheffects.withSimple PatchShadow()， 会 为 标题 添加 默认 的 阴 
影 效 果 。 参 数 的 默认 值 为 offset_xy=(2,-2)，shadow_rgbFace=None 和 
patch_alpha=0.7。 标 题 文 本 的 垂直 对 齐 方 式 还 有 center、top 和 baseline， 
这 里 因为 要 为 文本 添加 阴影 ， 所 以 选择 bottom。 下 一 行 代 码 为 标题 添加 
了 阴影 效果 。 路 径 效 果 (path effects) 是 matplotlib 的 matplotlib. 
patheffects 模 块 的 部 分 功能 ， 支 持 matplotlib.text.Text 和 matplotlib. 
patches.Patch 。 

接着 为 x 轴 和 y 轴 添加 不 同 的 阴影 设置 。 首 先 ， 我 们 上 自 定 义 相 对 于 父 
对 象 乌 的 阴影 的 位 置 〈offset， 偏 移 ) ， 然 后 设置 阴影 的 颜色 。 颜 色 在 这 
里 表示 为 一 个 0.0~1.0 之 间 浮 点 数 的 三 元 组 ， 每 一 个 浮 点 数 代表 一 个 








RGB 通道 。 因 此 ， 红 色 表 示 为 〈1.0，0.0，0.0) (C&T, TRE, i 
色 ) 。 

透明 度 〈 或 者 alpha) 被 设置 为 一 个 归 一 化 的 值 ， 我 们 也 想 为 其 设置 
一 个 不 同 于 默认 值 的 值 。 

设置 完毕 后 ， 实 例 化 ”matplotlib.patheffects.withSimplePatchShadow 
对 象 ,并 将 其 引用 保存 在 pe 变量 中 以 供 后 面 的 代码 重用 它 。 

为 了 能 应 用 阴影 效果 ， 我 们 需要 得 到 label 对 象 。 这 再 简单 不 过 了 ， 
因为 matplotlib. pyplot.xlabel0 返 回 了 该 对 象 (matplotlib.text.Text) 的 引 
用 。 然 后 用 它 来 调用 set_path_effects([pe]) 方 法 。 

最 后 把 图 表 显 示 出 来 ， 真 为 我 们 做 的 工作 感到 骄傲 。 





4.2.4 Zr i H 


如 果 你 不 满足 于 matplotlib.patheffects 目前 提供 的 效果 ， 可 以 继承 
matplotlib. ”pathefffects. Base 类 ， 并 重 写 draw_path 方 法 。 看 看 下 面 的 代 
码 和 注释 来 了 解 一 下 是 如 何 操 作 的 。 

https://github.com/matplotlib/matplotlib/blob/master/lib/matplotlib/pathe 
cts.py#L47 











为 了 区 分 图 表 中 的 茶 一 线条 ， 或 者 仅仅 为 了 保持 包含 图 表 在 内 的 所 
有 表格 的 总 体 风 格 ， 有 了 时 需要 为 图 表 线 条 (或 者 直方 图 ) 添加 阴影 效 
果 。 在 本 节 中 ， 我 们 将 学 习 如 何 癌 图 表 添 加 阴影 效果 。 


4.3.1 准备 工 


为 了 回 图 表 中 的 线条 或 者 矩形 条 添加 阴影 ， 需 要 使 用 matplotlib 内 置 
的 transformation 框 架 ， 其 位 于 matplotlib.transforms 模 块 中 。 

为 了 理解 所 有 这 些 是 如 何 工作 的 ， 我 们 需要 解释 下 matplotlib 中 的 
transformations 框 架 是 什么 以 及 它们 的 工作 原理 。 

Transformations 知道 如 何 将 给 定 的 坐标 从 其 坐标 系 转换 到 显示 坐标 
系 中 ， 它 们 也 知道 如 何 将 坐标 从 显示 坐标 系 转换 到 它们 自己 的 坐标 系 
中 。 

表 4-1 总 结 了 现 有 的 坐标 系 以 及 它们 描述 的 内 容 。 

表 4-1 


TE Rx 
Dus 表示 用 户 的 数据 坐标 系 


表示 Axes 坐标 系 ， 其 中 (0, 0) 表示 轴 的 左下 角 ， (1，1) 
Axes Axes.transAxes E 

表示 轴 的 右上 角 

是 Figure iA, HP (0，0) 表示 图 表 的 左下 角 ， (1，1) 
Figure Figure.transFigure E . 

表示 网 表 的 右上 角 


表示 用 户 视窗 的 像素 坐标 系 , FLA C0, 0) 表示 视窗 的 左下 角 ， 
Display None (width, height) 元 组 表示 显示 界面 的 右上 角 。 这 里 的 width 
和 height 都 是 以 像素 为 单位 的 


注意 ， 在 Transformations 对 象 列 中 ， 视 窗 坐 标 系 是 没有 值 的 。 这 是 














因为 默认 的 坐标 系 就 是 Display 坐 标 系 ， 坐 标 总 是 在 视窗 坐标 系 下 并 以 像 
素 为 单位 。 但 这 并 没有 太 大 的 用 处 ， 因 为 大 多 数 情况 下 我 们 想 把 坐标 归 
一 化 到 Figure、Axes 或 者 一 个 Data 坐标 系 中 。 

这 个 框架 能 让 我 们 把 现 有 对 象 转化 成 一 个 偏 移 对 象 ， 也 就 是 说 ， 把 
对 象 放 置 到 偏离 原来 对 象 一 段 距离 的 地 方 。 


4.3.2 un 步骤 


下 面 是 向 图 表 添 加 阴影 效果 的 代码 。 在 下 一 小 节 中 会 对 代码 进行 解 


import numpy as np 
import matplotlib.pyplot as plt 
import matplotlib.transforms as transforms 
def setup(layout=None): 
assert layout is not None 
fig = plt.figure() 
ax = fig.add_subplot(layout) 
return fig, ax 
def get_signal(): 
t = np.arange(0., 2.5, 0.01) 
s = np.sin(5 * np.pi * t) 
return t, s 
def plot. signal(t, s): 
line, = axes.plot(t, s, linewidth=5, color-'magenta") 
return line, 
def make shadowr(fig, axes, line, t, s): 


delta = 2 / 72. # how many points to move the shadow 


offset = transforms.ScaledTranslation(delta, -delta, 
fig.dpi_scale_trans) 
offset_transform = axes.transData + offset 
# We plot the same data, but now using offset transform 
# zorder -- to render it below the line 
axes.plot(t, s, linewidth=5, color-'gray', 
transform-offset transform, 
zorder=0.5 * line.get zorder()) 
if name --" main ^" 
fig, axes = setup(111) 
t, s = get signal() 
line, = plot signal(t, s) 
make shadow(fig, axes, line, t, s) 
axes.set title('Shadow effect using an offset transform") 


plt.show() 


4.3.3 工作 原理 


我 们 从 后 部 分 代码 的 if name ”检查 语句 之 后 开始 阅读 。 首 先 通过 
setup() 创 建 figure 和 axes。 然 后 ， 得 到 一 个 信号 (或 者 说 生成 一 个 正弦 波 
数据 ) 。 在 plot_signal0) 方 法 中 绘制 出 基本 的 信号 图 。 最 后 ， 进 行 阴 影 坐 
标 转 换 并 在 make_shadow() 方 法 中 绘制 出 阴影 。 

使 用 偏 移 效 果 创 建 一 个 偏 移 对 象 ， 把 阴影 放置 在 原始 对 象 之 下 并 偏 








移 几 个 点 的 距离 。 
原始 对 象 是 一 个 简单 的 正弦 波 ， 用 标准 的 plot0 方 法 进行 绘制 。 
matplotlib 包含 一 个 transformations helper 


来 添加 偏 移 转 换 。 





matplotlib.transforms. Scaled Translation 


dx 和 dy 的 值 以 点 为 单位 。 因 为 点 是 1172 英 寸 ， 向 右 移动 偏 移 对 象 
2pt， 向 下 移动 偏 移 对 象 2pt。 


如 果 想 了 解 更 多 关于 如 何 转 换 点 为 1172 团 英寸 的 知识 ， 请 阅读 一 下 
这 篇 Wikipedia 文章 ， 参 见 http://en.wikipedia.org/wiki/ Point_%28 
typography9629. 

HY PA (8 H matplotlib.transforms.ScaledTransformation(xtr, ytr, scaletr) 
方法 。 这 里 ，xtr 和 ytr 是 转换 的 偏 移 量 ，scaletr 是 一 个 转换 可 调用 对 象 

(callable〉， 在 转换 时 和 显示 之 前 对 xtr 和 ytr 进 行 比 例 调整 。 其 最 常用 

的 情况 是 从 点 转换 到 显示 区 域 ， 如 DPI， 这 样 偏 移 始终 保持 在 相同 的 位 
置 而 与 实际 的 输出 设备 无 关 《〈 可 以 是 显示 器 或 者 打印 的 材料 ) 。 我 们 使 
用 的 可 调用 对 象 已 经 内 置 在 matplotlib 中 ， 可 以 从 Figure.dpi_scale_trans 得 
Fij, 

然后 ， 用 这 些 转 换 把 数据 绘制 出 来 。 


4.3.4 补充 说 明 











使 用 transforms 添加 阴影 只 是 这 个 框架 的 一 种 但 不 是 最 流行 的 用 
法 。 为 了 用 trans formations 框 架 做 更 多 的 事情 ， 需 要 了 解 transformation 
管道 工作 原理 的 详细 内 容 以 及 有 哪些 扩展 点 (继承 以 及 如 何 继承 哪些 
X) 。 这 非常 简单 ， 因 为 matplotlib 是 开源 的 ， 即 使 一 些 代 码 没 有 很 好 的 
文档 ， 你 也 可 以 阅读 、 使 用 源码 或 者 做 些 修 改 ， 进 而 为 matplotlib 总 体 的 
质量 和 可 用 性 做 些 贡 献 。 





虽然 matplotlib 主 要 是 一 个 绘图 的 库 ， 但 它 可 以 在 绘图 时 帮 我 们 做 一 
些 琐事 ， 比 如 在 漂亮 的 图 表 旁 放置 一 个 整齐 的 数据 表格 。 本 节 将 学 习 如 
fare Es n n EE SS os UNS s 


4.4.1 准备 工作 





首先 ， 重 要 的 是 理解 为 什么 要 回 图 表 添 加 表格 。 为 数据 绘制 可 视 化 
图 形 的 主要 目的 是 解释 那些 不 能 理解 〈 或 者 很 难 理解 ) 的 数据 值 。 现 
在 ， 我 们 想 把 数据 添加 回来 。 仅 仅 在 图 表 下 面 生硬 地 添加 一 张大 表格 显 
然 是 不 明智 的 做 法 。 

但 是 ， 通 过 精心 挑选 的 ， 来 自 数据 整体 集合 的 总 结 性 的 或 者 突出 强 
调 的 值 可 以 识别 出 图 表 的 重要 部 分 ， 或 者 在 一 些 地 方 强调 一 些 非常 重要 
的 值 。 在 这 些 地 方 ， 这 些 精 确 的 值 〈 例 如 以 USD 为 单位 的 年 销售 额 ) 是 
非常 重要 的 《或 者 是 必需 的 ) 。 











4.4.2 un E JB 


1X BEAR RRI Y TS PER e 
import matplotlib.pylab as plt 

import numpy as np 

plt.figure() 

ax = plt.gca() 

y = np.random.randn(9) 

col labels = ['col1','col2','col3'] 





row labels = ['row1',row2', row3'] 
table vals = [[11, 12, 13], [21, 22, 23], [28, 29, 30]] 
row. colors = ['red', 'gold', 'green'] 
my. table = plt.table(cellText-table vals, 
colWidths=[0.1] * 3, 
rowLabels-row. labels, 
colLabels-col labels, 


rowColours-row. colors, 


loc-'upper right") 
plt.plot(y) 
plt.show() 
上 述 代码 段 生 成 如 图 4-1 所 示 的 图 表 。 








使 用 plttable() 方 式 创 建 了 一 个 带 单 元 格 的 表格 ， 并 把 它 添加 到 当前 
坐标 轴 中 。 表 格 可 以 有 《可 选 的 ) 行 标题 和 列 标题 。 每 个 单元 格 包含 文 
本 或 补 片 。 表 格 的 列 宽 和 行 高 是 可 以 指定 的 。 返 回 值 是 一 个 组 成 表格 的 
对 象 〈 文 本 、 线 条 和 补 卢 实例 ) 的 序列 。 

基本 的 函数 签名 如 下 。 


table(cellText=None, cellColours=None, 








cellLoc-'right', colWidths=None, 

rowLabels=None, rowColours=None, rowLoc='left', 

colLabels=None, colColours=None, colLoc-'center', 

loc='bottom', bbox=None) 

函数 实例 化 并 返回 一 个 matplotlib.table.Table 实 例 。 只 有 一 种 方式 把 

表格 添加 到 图 表 中 ， 这 也 是 matplotlib 通常 的 情况 。 可 以 直接 访问 这 个 
面向 对 象 的 接口 。 在 用 add_table(0) 方 法 把 图 表 添 加 到 坐标 轴 实 例 之 前 ， 
可 以 用 matplotlib. table.Table 类 直接 对 表格 进行 微调 。 





4.4.4 Zh Zr i H 





如 果 直 接 创建 一 个 matplotlib.table.Table 类 的 实例 ， 在 把 它 添 加 到 
axes 实 例 前 你 可 以 有 更 多 的 控制 。 可 以 使 用 Axes.add_table(table) 方 法 把 
table 实例 添加 到 axes， 这 里 的 table 是 matplotlib.table.Table 类 的 实例 。 





4.5 subplots X 


如 果 你 是 从 开头 阅读 本 书 ， 一 定 对 subplot 类 非常 熟悉 。subplot 派 生 
目 axes， 位 于 subplot 实 例 的 规则 网 格 中 。 我 们 将 要 解释 和 演示 如 何以 高 
级 的 方式 使 用 子 区 。 

本 节 将 学 习 如 何在 plot 中 创建 定制 的 子 区 配置 项 。 


4.5.1 准备 工作 


子 区 的 其 类 是 matplotlib.axes.SubplotBase。 子 区 是 matplotlib. 
axes.Axes 的 实例 ， 但 提供 了 helper 方 法 来 生成 和 操作 图 表 中 的 一 系列 
Axes. 

有 一 个 matplotlib.figure.SubplotParams 类 ， 包 括 subplot 的 所 有 参数 。 
尺寸 是 被 归 一 化 的 图 表 的 宽度 或 者 高 度 。 我 们 已 经 知道 ， 如 有 果 不 指定 任 
何 定制 化 的 值 ，subplot 将 会 从 rc 参数 中 读 取 参数 值 。 

脚本 层 Cmatplotlib.pyplot) 有 操作 子 区 的 一 些 helper 方 法 。 

matplotlib.pyplot.subplots 用 来 方便 地 创建 普通 布局 的 子 区 。 我 们 可 
以 指定 网 格 的 大 小 一 一 子 区 网 格 的 行 数 和 列 数 。 

我 们 可 以 创建 共享 x 或 者 y 轴 的 子 区 ， 这 通过 使 用 sharex 或 者 sharey 
关键 字 参 数 来 完成 。sharex 参 数 可 以 设置 为 Trme， 这 样 x 轴 就 被 所 有 的 子 
区 共享 。 这 样 一 来 ， 刻 度 标签 只 在 最 后 一 行 的 子 区 上 可 见 。 它 们 也 可 以 
被 设置 为 字符 串 ， 枚 举 值 如 row、col、all 或 者 none。 值 al 和 True 相同 ， 
值 none 和 False 相 同 。 如 果 设 置 为 row， 则 每 一 个 子 区 行 共 享 x 轴 坐标 ; 如 
果 设 置 为 col， 则 每 一 个 子 区 列 共 译 y 轴 坐标 。matplotlib.pyplot. subplots 
方法 返回 一 个 Cig, ax) 元 组 ， 其 中 ax 可 以 是 一 个 坐标 轴 实 例 ， 当 创建 




















多 个 子 区 时 ，ax 是 一 个 坐标 轴 实 例 的 数组 。 

我 们 用 matplotlib.pyplot.subplots_adjust 来 调整 子 区 的 布局 。 关 键 字 
参数 指定 了 图 表 中 子 区 的 坐标 deft, right. bottom 和 top)， 其 值 是 归 一 
化 的 图 表 大 小 的 值 。 可 以 用 wspace 和 hspace 参 数 指定 子 区 间 空 白 区 域 的 
大 小 ， 参 数值 为 相应 宽度 和 高 度 的 归 一 化 值 。 


4.5.2 un Ip 


Bet AN matplotlib TH 6 rH 53 — ^ helperrf 2 — —subplot2grid 
一 一 的 例子 。 我 们 定义 了 网 格 的 几何 形状 和 子 区 的 位 置 。 注 意 位 置 是 基 
于 0 的 ， 而 不 是 像 在 plot.subplot0 中 那样 基于 1。 也 可 以 使 用 colspan 和 
rowspan 来 让 子 区 跨越 给 定 网 格 中 的 多 个 行 和 列 。 例 如 ， 创 建 一 个 图 
表 ， 通 过 subplot2grid 添 加 不 同 的 子 区 布局 ， 并 重新 配置 刻度 标签 大 小 。 

显示 图 形 代码 如 下 。 

import matplotlib.pyplot as plt 











plt.figure(0) 
axes1 = plt.subplot2grid((3, 3), (0, 0), colspan=3) 
axes2 = plt.subplot2grid((3, 3), (1, 0), colspan=2) 
axes3 = plt.subplot2grid((3, 3), (1, 2)) 
axes4 = plt.subplot2grid((3, 3), (2, 0)) 
axes) = plt.subplot2grid((3, 3), (2, 1), colspan=2) 
# tidy up tick labels size 
all axes - plt.gcf().axes 
for ax in all axes: 

for ticklabel in ax.get xticklabels() + ax.get yticklabels(): 

ticklabel.set fontsize(10) 

plt.suptitle("Demo of subplot2grid") 


plt.show() 
当 执 行 上 述 代 码 时 ， 将 创建 出 如 图 4-2 所 示 的 图 形 。 
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4.5.3 工作 原理 


向 subplot2grid 方 法 传 入 形状 参数 、 位 置 〈loc) 参数 和 可 选 的 
rowspan 及 colspan 参 数 。 这 里 一 个 重要 的 区 别 是 位 置 从 0 开始 索引 ， 而 
figure.add_subplot 从 1 开始 索引 。 


4.5.4 Zr i H 


以 下 是 一 个 以 另 一 种 方式 定制 化 当前 axes 或 者 subplot 的 例子 。 
axes = fig.add_subplot(111) 


rectangle = axes.patch 


rectangle.set facecolor('blue") 

这 里 我 们 看 到 每 一 个 axes 实 例 包 含 了 一 个 引用 rectangle 实 例 的 patch 
字段 ， 此 字段 代表 当前 axes 实 例 的 背景 。 我 们 可 以 更 新 该 实例 的 属性 ， 
进而 更 新 当前 axes 的 背景 。 例 如 ， 可 以 改变 其 颜色 ， 也 可 以 加 载 一 副 图 
像 以 添加 水 印 保 护 。 

也 可 以 先 创 建 一 个 补 片 ， 然 后 把 它 添 加 到 axes 的 背景 上 。 

fig = plt.figure() 

axes = fig.add_subplot(111) 

rect = matplotlib.patches.Rectangle((1,1), width=6, height=12) 

axes.add_patch(rect) 

# we have to manually force a figure draw 


axes.figure.canvas.draw() 


4.6 定制 化 网 格 


在 线条 或 者 图 表 下 面 添加 网 格 是 非常 有 用 的 ， 它 可 以 帮助 肉眼 识别 
出 图 案 的 不 同 ， 并 且 帮 助 我 们 比较 图 表 中 的 图 形 。 我 们 需要 使 用 
matplotlib.pyplot.grid 来 设置 网 格 的 可 见 度 、 密 度 和 风格 ， 或 者 是 否 显示 
网 格 。 

本 市 将 学 习 如 何 打开 或 关闭 网 格 ， 以 及 如 何 改变 网 格 上 的 主 刻度 和 
次 刻度 。 





4.6.1 准备 工作 


最 常用 的 网 格 定制 化 功能 可 以 用 matplotlib.pyplot.grid helper 函数 来 
FEM 0 

为 了 看 到 其 交互 效果 ， 在 ipython-pylab 下 运行 下 面 的 代码 。 对 
plt.grid0 的 基本 的 调用 将 会 在 由 IPython PyLab 环境 开启 的 当前 交互 式 会 
话 中 切换 网 格 的 可 见 性 ， 如 图 4-3 所 示 。 

In [1]: plt.plot([1,2,3,3.5,4,4.3,3]) 

Out[1]: [«matplotlib.lines.Line2D at 0x3dcc810^ | 





图 4-3 
现在 我 们 可 以 在 同一 个 图 表 中 切换 网 格 。 
In [2]: plt.grid() 

把 网 格 打开 ， 如 图 4-4 所 示 。 





图 4-4 
然后 关闭 网 格 ， 如 图 4-5 所 示 。 
In [3]: plt.grid() 





图 4-5 
除了 只 是 打开 或 关闭 网 格 之 外 ， 还 能 进一步 定制 化 网 格 的 外 观 。 





我 们 可 以 仅 通过 主 刻 度 或 者 次 刻度 ， 或 者 同时 通过 两 个 刻度 来 操作 
Pi. DUE. BEDA whichn]UZÉ'major. 'minor, # both. 52s 
似 ， 我 们 可 以 通过 参数 axis 分 别 控 制 水 平 刻度 和 垂直 刻度 ， 参 数值 可 以 
是 Xx'"、'y'"， 或 者 'both'。 

所 有 其 他 属性 通过 kwargs 参 数 传 入 ， 代 表 一 个 
matplotlib.lines.Line2D 实 例 可 以 接受 的 标准 属性 集合 ， 比 如 color、 
linestyle 和 linewidth。 这 里 有 一 个 例子 。 


ax.grid(color-'g', linestyle='--', linewidth=1) 


4.6.2 RE IR 


这 非常 不 错 ， 但 是 我 们 想 要 做 更 多 的 定制 化 。 为 此 ， 我 们 需要 深入 
地 了 解 matplotib 和 mpl_toolkits， 并 找到 能 以 一 个 简单 且 可 管理 的 方式 创 
建 坐标 轴 网 格 的 AxesGrid 模 块 。 

import numpy as np 

import matplotlib.pyplot as plt 

from mpl_toolkits.axes_grid1 import ImageGrid 

from matplotlib.cbook import get_sample_data 

def get_demo_image(): 

f= get sample data("axes grid/bivariate normal.npy", 
asfileobj=False) 

# z is anumpy array of 15x15 

Z = np.load(f) 

return Z, (-3, 4, -4, 3) 

def get. grid(fig-None, layout=None, nrows ncols-None): 

assert fig is not None 

assert layout is not None 

assert nrows ncols is not None 

grid = ImageGrid(fig, layout, nrows ncols-nrows ncols, 
axes pad-0.05, add all-True, label mode-"L") 

return grid 

def load. images to grid(grid, Z, *images): 

min, max - Z.min(), Z.max() 
for i, image in enumerate(images): 
axes = grid[i] 
axes.imshow(image, origin-"lower", vmin=min, vmax-max, 


interpolation-"nearest") 


if name --" main ": 


IP 
O N Ò 
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fig = plt.figure(1, (8, 6)) 

grid = get. grid(fig, 111, (1, 3)) 

Z, extent = get demo image() 

# Slice image 

imagel = Z 

image2 = Z[:, :10] 

image3 = Z[:, 10:] 

load_images_to_grid(grid, Z, image1, image2, image3) 
plt.draw() 


ps show() 
述 代码 绘制 出 如 图 4-6 所 示 的 图 形 。 
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图 4-6 


4.6.3 工作 原理 








在 函数 get_demo_image 中 ， 我 们 从 matplotlib 的 样本 数据 目录 中 加 载 


数据 。 


grid 列 表 保 存 了 axes 网 格 〈 此 例 中 是 ImageGrid) 。 

变量 imagel1、image2、image3 保 存 了 Z 的 切片 数据 ， 这 些 数据 是 根 
据 grid 列 表 的 多 个 坐标 轴 切 分 的 。 

循环 壳 历 所 有 的 网 格 ， 调 用 标准 的 imshow(0 方 法 绘制 出 imagel、 
image2、image3 负 的 数据 。matplotlib 确 保 所 有 图 形 的 演 染 是 整洁 的 ， 排 
列 是 整齐 的 。 


4.7 创建 等 高 线 区 


等 高 线 图 (contour plot) 显示 的 是 矩阵 的 等 值 线 Cisolines) 。 等 值 
线 是 用 数值 相等 的 各 点 连 成 的 曲线 。 数 值 通过 一 个 有 两 个 参数 的 函数 乌 
获得 。 

本 节 将 学 习 如 何 创建 等 高 线 图 。 


4.7.1 准备 工作 


Z 和 矩阵 的 等 高 线 图 由 许多 等 高 线 表 示 ， 这 里 的 Z 被 视 为 相对 于 X-Y 平 
面 的 高 度 。Z 的 最 小 值 为 2， 并 且 必 须 包含 至 少 两 个 不 同 的 值 。 
等 高 线 图 的 缺陷 之 一 是 如 果 在 编码 时 不 为 等 值 线 添 加 标签 ， 它 将 坚 
无 意义 ， 因 为 我 们 不 能 分 辨 出 最 高 点 和 最 低 点 ， 或 者 找 出 局 部 极 小 值 。 
我 们 需要 为 等 高 线 添加 标签 。 可 以 使 用 标签 〈clabel0 ) 或 者 
colormaps 为 等 值 线 添 加 标签 。 如 果 你 的 输出 媒介 允许 使 用 闫 色 ， 
colormaps 是 首选 ， 因 为 观察 者 将 更 容易 理解 数据 。 

等 高 线 图 的 男 一 个 风险 是 如 何 选 择 要 绘制 的 等 值 线 数量 。 如 果 选 择 
的 太 多 ， 图 表 束 会 变 得 太 密 集 从 而 难以 理解 ， 如 果 选 择 的 太 少 ， 将 丢失 
言 轧 ， 从 而 对 数据 做 出 不 同 的 理解 。 

函数 contour() 会 自动 猪 测 出 将 绘制 多 少 每 值 线 ， 但 我 们 也 可 以 指定 
数量 。 

在 matplotlib 中 ， 用 matplotlib.pyplot.contour 绘 制 等 高 线 图 。 

这 里 有 两 个 相似 的 函数 :contour() 绘 制 等 高 线 ，contourf() 绘 制 填充 
的 等 高 线 。 我 们 将 只 演示 contour()， 但 是 几乎 所 有 内 容 对 contourf() 都 是 
适用 的 。 而 且 ， 它 们 的 参数 几乎 相同 。 














contour() 函 数 可 以 有 不 同 的 调用 签名 (如 表 4-2 所 示 )〉 ， 这 取决 于 我 
们 拥有 的 数据 和 《或 者 ) 我们 想 可 视 化 的 属性 。 





表 4-2 
调用 签名 描 述 
contour (Z) 绘制 Z (数组 ) 的 等 高 线 。 上 自动 选择 水 平 值 
contour(X, Y, Z) £x X. Y Al Z 的 等 高 线 。x 和 YY 数组 为 (x,y) 平 面 坐 标 (surface coordinates) 
gontourta- W 绘制 z 的 等 高 线 ， 其 中 水 平 数 由 N 决定 。 自 动 选择 水 平 值 
contour (xX, Yz Zig N) 
Z.. ¥ Tara" "m E: 
E d 绘制 等 高 线 ， 水 平 值 在 v 中 指定 
contour(X,. Y, Ar V) 
contour(.., V) 填充 v 序列 中 的 水 平 值 之 间 的 Len (V) -1 个 区 域 


使 用 关键 字 参 数控 制 一 般 线 条 属性 《颜色 、 线 宽 、 起 点 ， 颜 色 映 射 表 〈color 


**kwargs) map) 等 ) 

X、Y 和 Z 的 形状 和 维度 存在 一 定 的 限制 。 例 如 ，X 和 Y 可 以 是 二 维 
的 ， 与 Z 形 状 相同 。 如 有 果 它 们 是 一 维 的 ， 则 X 的 长 度 等 于 Z 的 列 数 ，Y 的 
长 度 将 等 于 Z 的 行 数 ， 


contour (Z, 


4.7.2 un He 


在 下 面 的 代码 示例 中 ， 我 们 将 进行 以 下 操作 。 
1. 实 现 一 个 方法 来 模拟 信号 处 理 器 。 

2. 生 成 一 些 线性 信号 数据 。 

3. 把 数据 转换 到 合适 的 矩阵 中 供 算 阵 操作 使 用 。 
4. 绘 制 等 高 线 。 

5. 添 加 等 高 线 标签。 

6. 显 示 图 形 。 

import numpy as np 

import matplotlib as mpl 

import matplotlib.pyplot as plt 


def process_signals(x, y): 


return (1 - (x ** 2 + y ** 2)) * np.exp(-y ** 3/3) 
x 7 np.arange(-1.5, 1.5, 0.1) 
y 7 np.arange(-1.5, 1.5, 0.1) 
# Make grids of points 
X, Y = np.meshgrid(x, y) 
Z 7 process signals(X, Y) 
# Number of isolines 
N 7 np.arange(-1, 1.5, 0.3) 
# adding the Contour lines with labels 
CS = plt.contour(Z, N, linewidths-2, cmap-mpl.cm.jet) 
plt.clabel(CS, inline- True, fmt-'961.1f', fontsize=10) 
plt.colorbar(CS) 
plt.title('My function: $z=(1-x\2+y/2) eA{-(y43)/3}$') 
plt.show() 
生成 如 图 4-7 所 示 的 图 表 。 


y )/3 


My function: z=(1—2* +y )e 





图 4-7 
4.7.3 工作 原理 


我 们 从 numpy 借 助 少 数 几 个 helper 方法 来 创建 范围 和 和 矩阵。 

在 对 my_functionlgl 求 值 并 存储 在 Z 之 后 ， 简 单 地 调用 contour， 并 传 
入 Z 和 等 值 线 水 平 数量 。 

此 时 ， 可 以 尝试 用 N arange() 调 用 中 的 第 三 个 参数 做 个 实验 。 例 
如 ， 尝 试 将 N=np.arange(-1, 1.5, 0.3) 的 参数 做 一 些 修改 ， 将 值 0.3 改 为 0.1 
或 1， 来 体验 一 下 对 相同 数据 进行 不 同 编码 时 ， 它 在 等 高 线 图 中 呈现 的 
ALF 





此 外 ， 我 们 通过 简单 地 传 入 一 个 


CS (matplotlib.contour.QuadContourSet 实 例 ) 向 图 表 添 加 了 一 个 颜色 映 
I. 


4.8 JH aK 


在 matplotlib 中 绘制 一 个 填充 多 边 形 的 基本 方式 是 使 用 
matplotlib.pyplot.fill. 

该 方法 接受 和 matplotlib.pyplot.plot 相 似 的 参数 ， 即 多 个 x、y 对 和 其 
他 Line2D 属 性 。 函 数 返 回 被 添加 的 Patch 实 例 的 列表 。 

本 节 将 学 习 如 何 为 特定 的 图 形 交 集 区 域 填 充 阴影 。 


4.8.1 准备 工作 


除了 如 histogram() 等 固有 的 绘制 闭合 的 填充 多 边 形 的 绘图 函数 之 
外 ，matplotlib 还 提供 了 几 个 方法 来 帮助 我 们 绘制 填充 的 图 形 。 

我 们 已 经 提 到 了 一 个 一 一 matplotlib.pyplot.fill ， 另 外 还 有 matplotlib. 
pyplot.fil_between0 和 matplotlib.pyplot.fil_betweenx0 四 函数 。 这 些 方法 
填充 两 条 曲线 间 的 多 边 形 。fill_between() 和 fill_betweenx() 主 要 的 区 别 是 
后 者 填充 x 轴 的 值 之 间 的 区 域 ， 而 前 者 填充 y 轴 的 值 之 间 的 区 域 。 

函数 fill_between 接 收 参 数 x〈 数 据 的 x 轴 数组 ) 和 yl 及 y2 数 据 的 y 
轴 数 组 ) 。 通 过 参数 ， 我 们 可 以 指定 条 件 来 决定 要 填充 的 区 域 。 这 个 条 
件 是 一 个 布尔 条 件 ， 通 党 指定 y 轴 值 范 围 。 默 认 值 为 None， 表 示 填 充 所 
有 区 域 。 








4.8.2 un 步骤 





从 一 个 简单 的 例子 开始 ， 我 们 将 填充 一 个 简单 函数 下 面 的 区 域 。 
import numpy as np 


import matplotlib.pyplot as plt 


from math import sqrt 

t = range(1000) 

y = [sqrt(i) for i in t] 

plt.plot(t, y, color-'red', lw=2) 

plt.fill_between(t, y, color='silver') 

plt.show() 

上 述 代码 生成 如 图 4-8 所 示 的 图 形 。 

它 非常 直观 的 让 我 们 了 解 了 fil_between0 是 如 何 工 作 的 。 值 得 注意 
的 是 ，fill_between() 只 是 绘制 了 一 个 填充 了 颜色 Csilver) 的 多 边 形 区 
域 ， 所 以 我 们 需要 绘制 实际 的 函数 线条 ， 当 然 是 使 用 plot O Te 





图 4-8 
在 这 里 ， 我 们 将 演示 男 一 个 技巧 。 它 将 为 {1 函数 引入 更 多 的 条 件 ， 


示例 代码 如 下 。 

import matplotlib.pyplot as plt 

import numpy as np 

x = np.arange(0.0, 2, 0.01) 

y1 = np.sin(np.pi*x) 

y2 = 1.7*np.sin(4*np.pi*x) 

fig = plt.figure() 

axes1 = fig.add subplot(211) 

axes1.plot(x, y1, x, y2, color='grey') 

axes1.fill_between(x, y1, y2, where=y2<=y1, facecolor-'blue', 

interpolate=True) 

axes1.fill_between(x, y1, y2, where=y2>=y1, facecolor-'gold', 

interpolate-True) 

axes1.set title'Blue where y2 <= y1. Gold-color where y2 >= y1.") 

axes1.set_ylim(-2,2) 

# Mask values in y2 with value greater than 1.0 

y2 = np.ma.masked greater(y2, 1.0) 

axes2 = fig.add subplot(212, sharex=axes1) 

axes2.plot(x, y1, x, y2, color-'black') 

axes2.fill between(x, y1, y2, where=y2<=y1, facecolor-'blue', 

interpolate-True) 

axes2.fill between(x, yl, y2, where=y2>=yl,  facecolor-'gold', 
interpolate-True) 

axes2.set title'Same as above, but mask") 

axes2.set ylim(-2,2) 

axes2.grid('on") 


plt.show() 


以 上 代码 将 泻 染 出 如 图 4-9 所 示 的 图 形 。 


Blue where y2 <= yl. Gold-color where y2 >= y1 


\ / . À | 
j \ A \ i 
T | 
i" \ / \ | 
— 要 \ / vg 
15 20 


Same as above, but mask 





10 





0 
0.5} 

0 

5 

295 0s 
2.0 

15| ] 
10| mati | 
«f D | 
oo | 
0.5} me M | 
-1.0) — | 
1.5} | 

Oo 


“2-85 05 





图 4-9 
4.8.3 工作 原理 


在 这 个 例子 中 ， 首 先 创建 了 两 个 在 某 些 点 重 登 的 正弦 曲线 函数 。 

还 创建 了 两 个 子 区 ， 用 来 比较 两 种 泻 染 填充 区 域 方式 的 差异 。 

在 这 两 种 情况 下 ， 我 们 使 用 了 带 参 数 where 的 fill_between() 方 法 填充 
where 等 于 True 的 区 域 ， 其 中 where 参 数 接收 一 个 长 度 为 N 的 布尔 数组 。 

下 面 的 一 个 子 区 演示 了 mask_greater， 它 屏蔽 了 数组 中 大 于 给 定 值 
的 所 有 值 。 这 是 一 个 numpy.ma 包 中 的 方法 ， 用 来 处 理 缺 失 或 者 无 效 的 
值 。 我 们 在 底部 的 坐标 轴 上 添加 网 格 使 其 更 直观 。 





4.9 绘制 极 线 

如 果 数 据 已 经 是 以 极 坐 标 形式 表示 的 ， 我 们 也 可 以 用 极 线 图 来 把 它 
显示 出 来 。 即 使 数据 不 在 极 坐 标 内 ， 也 应 该 考虑 把 它 转 换 成 极 坐标 形式 
并 在 极 线 图 上 男 出 来 。 

要 回答 我 们 是 否 需 要 这 样 做 ， 需 要 了 解数 据 代 表 什么 以 及 和 希望 显示 
给 用 户 什 么 。 想 象 一 下 什么 是 用 户 想 从 图 表 中 读 到 的 和 解码 的 ， 这 通常 
会 让 我 们 得 到 最 好 的 可 视 化 效果 。 

极 线 图 通常 被 用 来 显示 本 质 上 是 射线 的 信息 。 例 如 ， 在 太阳 轨迹 图 
中 ， 我 们 看 到 放射 投影 的 天 空 ， 触 角 的 辐射 图 的 辐射 角度 各 寞 。 可 以 从 
http://www. astronwireless. com/topic-archives-antenna-radiation- 
patterns.asp 了 解 更 多 的 内 容 。 

本 节 中 将 要 学 习 如 何 改 变 图 表 中 使 用 的 坐标 系统 ， 并 以 极限 坐标 系 
AE. 














4.9.1 准备 工作 





为 了 在 极限 坐标 下 显示 数据 ， 必 须 有 合适 的 数据 值 。 在 极 坐 标 系统 
中 ， 点 被 描述 为 半径 距离 (通常 表示 为 r) 和 角度 (通常 表示 为 
theta)。 和 角度 可 以 用 弧度 或 者 角度 表示 ， 但 是 matplotlib 使 用 角度 。 

和 plotO 函 数 十 分 相似 的 是 ， 我 们 用 polar0 函 数 绘制 极 线 图 。polar0) 
函数 接收 两 个 相同 长 度 的 参数 数组 heta 和 Tr， 分 别 用 于 角度 数组 和 半径 
数组 。 函 数 也 接收 其 他 和 plotO0 函 数 相 同 的 格式 化 参数 。 

我 们 仍然 需要 告诉 matplotlib 坐标 轴 要 在 极限 坐标 系统 中 。 这 通过 
[=] add axes 或 add_subplot 提 供 polar=True 参 数 来 完成 。 


样 


RI 


此 外 ， 为 了 设置 图 表 中 的 其 他 属性 ， 如 半径 网 格 或 者 角度 ， 需 要 使 
matplotlib. pyplot.rgrids() 来 切换 半径 网 格 的 显示 或 者 设置 标签 。 同 
使 用 matplotlib. pyplot.thetagrid(0) 来 配置 角度 刻度 和 标签 。 





4.9.2 un zb 
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import numpy as np 

import matplotlib.cm as cm 

import matplotlib.pyplot as plt 

figsize = 7 

colormap - lambda r: cm.Set2(r / 20.) 

N = 18 # number of bars 

fig = plt.figure(figsize=(figsize,figsize)) 

ax = fig.add axes([0.2, 0.2, 0.7, 0.7], polar=True) 

theta = np.arange(0.0, 2 * np.pi, 2 * np.pi/N) 

radii = 20 * np.random.rand(N) 

width = np.pi / 4 * np.random.rand(N) 

bars = ax.bar(theta, radii, width=width, bottom=0.0) 

for r, bar in zip(radii, bars): 
bar.set_facecolor(colormap(r)) 
bar.set_alpha(0.6) 

plt.show() 

上 述 代 码 段 将 生成 如 图 4-10 所 示 的 图 形 。 





图 4-10 


4.9.3 工作 原理 


首先 ， 创 建 了 一 个 正方 形 的 图 表 ， 并 向 其 添加 极限 坐标 轴 。 其 实 图 
表 不 必 是 正方 形 的 ， 但 是 如 果 不 这 样 的 话 ， 极 线 图 就 是 椭圆 形 《〈 而 不 是 
圆 形 ) 的 了 。 

然后 ， 为 角度 Chet) 集合 和 极 线 距离 Cradii) 生成 随机 值 。 因 为 





绘制 的 是 极 线条 ， 需 要 为 每 一 个 极 线条 提供 宽度 集合 ， 因 此 需要 生成 一 
些 宽度 值 。 因 ne axes.bar 接 收 值 数 组 〈 几 乎 matplotlib 中 所 有 的 
绘图 函数 都 是 如 此 ) ， 所 以 不 必 在 这 个 生成 的 数据 集合 上 做 循环 过 历 ， 
只 需要 调用 一 次 bar 函 数 ， 并 传 入 所 有 的 参数 。 

为 了 能 够 容易 区 分 每 一 个 极 线条 ， 需 要 循环 遍历 添加 到 ax 《坐标 
轴 ) 的 每 一 个 极 线条 ， 并 定制 化 其 外 观 〈 表 面 颜色 和 透明 度 ) 。 


-—. 


4.10 线条 可 神化 》 Zip 


在 本 市 中 ， 我 们 想 展 示 如 何 解决 一 个 “现实 世界 ”中 的 任务 一 一 如 何 
用 matplotlib 可 视 化 目录 占有 率 。 
本 节 将 学 习 如 何 可 视 化 具有 比例 化 大 小 的 的 文件 系统 树 。 


4.10.1 准备 工作 
我 们 都 有 大 容量 的 硬盘 ， 有 些 时 候 我 们 都 态 记 里 面 存 放 的 是 什么 
了 。 如 果 能 看 清楚 这 样 的 大 文件 目录 中 存储 的 是 什么 ， 里 面 最 大 的 文件 
是 什么 就 好 了 了。 
虽然 有 许多 更 加 复杂 并 且 功 能 强大 的 软件 产品 可 以 完成 这 项 工作 ， 
但 是 我 们 想 用 Python 和 matplotlib 来 演示 一 下 是 如 何 来 做 的 。 


4.10.2 #E (EZ UE 








执行 下 面 的 步骤 。 
1. 实 现 一 些 helper 函 数 来 处 理 找到 的 文件 夹 和 其 内 部 的 数据 结构 。 
2. 实 现 绘图 的 主 函 数 draw0。 鱼 
import os 
import sys 
import matplotlib.pyplot as plt 
import matplotlib.cm as cm 
import numpy as np 
def build_folders(start_path): 
folders = [] 


for each in get_directories(start_path): 
size = get_size(each) 
if size >= 25 * 1024 * 1024: 
folders.append({'size': size, 'path': each }) 
for each in folders: 
print "Path: " + os.path.basename(each['path']) 
print "Size: " + str(each['size'] / 1024 / 1024) + " MB" 
return folders 
def get. size(path): 
assert path is not None 
total size = 0 
for dirpath, dirnames, filenames in os.walk(path): 
for f in filenames: 
fp = os.path.join(dirpath, f) 
try: 
size = os.path.getsize(fp) 
total size += size 
#print "Size of '{O}' is {1}".format(fp, size) 
except OSError as err: 
print str(err) 
pass 
return total_size 
def get_directories(path): 
dirs = set() 
for dirpath, dirnames, filenames in os.walk(path): 
dirs = set([os.path.join(dirpath, x) for x in dirnames]) 


break # we just want the first one 


return dirs 
def draw(folders): 
""" Draw folder size for given folder""" 

figsize — (8, 8) keep the figure square 

Ido, rup = 0.1, 0.8 # leftdown and right up normalized 

fig = plt.figure(figsize-figsize) 

ax = fig.add axes([ldo, Ido, rup, rup], polar=True) 

# transform data 

x = [os.path.basename(x['path']) for x in folders] 

y = [y['size'] / 1024 / 1024 for y in folders] 

theta = np.arange(0.0, 2 * np.pi, 2 * np.pi / len(x)) 

radii = y 

bars = ax.bar(theta, radii) 

middle = 90 / len(x) 

theta ticks = [t * (180 / np.pi) + middle for t in theta] 

lines, labels = plt.thetagrids(theta ticks, labels=x,frac=0.5) 

for step, each in enumerate(labels): 
each.set rotation(theta[step] * (180 / np.pi) + middle) 
each.set fontsize(8) 

# configure bars 

colormap = lambda r:cm.Set2(r / len(x)) 

for r, each in zip(radii, bars): 
each.set_facecolor(colormap(r)) 
each.set_alpha(0.5) 

plt.show() 

3. 接 下 来 ， 我 们 将 实现 main 函 数 体 。 当 从 命令 行 调 用 程序 时 ， 在 
main 函 数 中 验证 用 户 输入 的 参数 。 


Y Y 


if name --' main * 
if len(sys.argv) is not 2: 
print "ERROR: Please supply path to folder." 
Sys.exit(-1) 
start path = sys.argv[1] 
if not os.path.exists(start path): 
print "ERROR: Path must exits." 
Sys.exit(-1) 
folders = build folders(start path) 
if len(folders) « 1: 
print "ERROR: Path does not contain any folders." 
Sys.exit(-1) 
draw(folders) 
在 命令 行 运行 下 面 的 命令 。 
$ python ch04_rec11_filesystem.py /usr/lib/ 
生成 如 图 4-11 所 示 的 图 表 。 





图 4-11 


4.10.3 工作 原理 


我 们 从 代码 底部 这 name ==' main "之 后 的 部 分 开始 解析 ， 
为 程序 是 从 这 里 开始 执行 的 。 

使 用 sys 模 块 得 到 命令 行 参 数 ， 它 表示 我 们 想 要 可 视 化 的 文件 目录 
的 路 径 。 





函数 build folders 创建 出 目录 的 列表 ， 其 中 的 每 一 项 包含 了 在 给 定 
目录 start_path 下 的 目录 路 径 和 大 小 。 该 方法 调用 get_directories 返 回 
start_path 下 的 子 目 录 列 表 。 接 下 来 ， 对 于 每 一 个 找到 的 目录 ， 用 
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为 了 调试 ， 我 们 把 目录 打印 出 来 以 便 能 对 图 表 和 数据 进行 比较 。 

在 创建 目录 列表 后 ， 把 它 传 给 函数 draw。draw 函 数 将 所 有 数据 转换 
到 正确 尺寸 (这 里 采用 极 坐 标 系统 ) 、 创 建 极 线 图 表 和 绘制 所 有 极 线 
和 条、 刻度 和 标签 的 工作 。 

严格 来 讲 ， 我 们 应 该 把 这 项 工作 划分 成 更 小 的 函数 ， 尤 其 是 在 对 代 
码 做 进一步 开发 的 时 候 。 



























































Bore 创建 3D 可 视 


本 章 将 学 习 以 下 内 容 。 

€ 创建 3D 柱状 图 

€ 创建 3D 直方 图 

€ 在 matplotlib 中 创建 动画 
€ 用 OpenGL 制作 动画 


3D 可 视 化 有 时 候 是 很 有 效 的 ， 有 时 候 也 是 不 可 避免 的 。 在 这 里 我 
们 将 展示 一 些 例子 ， 这 些 例 子 将 满足 一 些 最 常用 的 需求 。 
本 章 将 会 介绍 并 讲解 一 些 3D 可 视 化 的 话题 。 





5.2 创建 3D 柱状 图 


里 然 matplotlib 主 要 专注 于 绘图 ， 并 且 主 要 是 二 维 的 图 形 ， 但 是 它 也 
有 一 些 不 同 的 扩展 ， 能 让 我 们 在 地 理 图 上 绘图 ， 让 我 们 把 Excel 和 3D 图 
表 结 合 起 来 。 在 matplotlib 的 世界 里 ， 这 些 扩 展 叫 做 工具 包 Ctoolkits) 。 
工具 包 是 一 些 关 注 在 某 个 话题 〈 如 3D 绘 图 ) 的 特定 函数 的 集合 。 

比较 流行 的 工具 包 有 Basemap、GTK 工具 、Excel 工具 、Natgrid、 
AxesGrid 和 mplot3d. 

本 节 将 探索 关于 mplot3d 的 更 多 功能 。mpl_toolkits.mplot3 工 具 包 提 
供 了 一 些 基 本 的 3D 绘 图 功能 ， 其 文 持 的 图 表 类 型 包括 散 点 图 
(scatter) 、 曲 面 图 (surf) 、 线 图 Cline) 和 网 格 图 (mesh) 。 虽 然 
mplot3d 不 是 一 个 最 好 的 3D 图 形 绘制 库 ， 但 是 它 是 伴随 着 matplotlib 产 生 
的 ， 因 此 我 们 对 其 接口 已 经 很 熟悉 了 。 


5.2.1 准备 工作 


基本 来 讲 ， 我 们 仍然 需要 创建 一 个 图 表 并 把 想 要 的 坐标 轴 添 加 到 上 
面 。 但 不 同 的 是 我 们 为 图 表 指 定 的 是 3D 视 图 ， 并 且 添 加 的 坐标 轴 是 
Axes3D 。 

现在 ， 我 们 可 以 使 用 几乎 相同 的 函数 来 绘 几 了。 当然， 函数 的 参数 
是 不 同 的 ， 需 要 为 3 个 坐标 轴 提 供 数 据 。 

例如 ， 我 们 要 为 函数 mpl toolkits.mplot3d.Axes3D.plot 指定 xs. 
ys. zs 和 zdir 参数 。 其 他 的 参数 则 直接 传 给 matplotlib.axes.Axes.plot。 
下 面 来 解释 一 下 这 些 特定 的 参数 。 

1.xs 和 ys: xX 轴 和 y 轴 坐标 。 











2.25: 这 是 z 轴 的 坐标 值 ， 可 以 是 所 有 点 对 应 一 个 值 ， 或 者 是 每 个 点 
对 应 一 个 值 。 

3.zdir: 决定 哪个 坐标 轴 作 为 z 轴 的 维度 (通常 是 zs， 但 是 也 可 以 是 
Xs 或 者 ys) 。 


a 


模块 mpl_toolkits.mplot3d.art3d 包 含 了 3D artist 代码 和 将 2Dartists 转 
化 为 3D 版 本 的 函数 。 在 该 模块 中 有 一 个 rotate_axes 方 法 ， 该 方法 可 以 被 
添加 到 Axes3D 中 来 对 坐标 重新 排序 ， 这 样 坐标 轴 就 与 zdir 一 起 旋转 了 。 
zdir 默 认 值 为 z。 在 坐标 轴 前 加 一 个 '-' 会 进行 反 转 转换 ， 这 样 一 来 ，zdir 
的 值 就 可 以 是 x、-X、y、-y、zZz 或 者 -z。 


5.2.2 un bU 





以 下 代码 演示 了 我 们 所 解释 的 概念 。 
import random 
import numpy as np 
import matplotlib as mpl 
import matplotlib.pyplot as plt 
import matplotlib.dates as mdates 
from mpl_toolkits.mplot3d import Axes3D 
mpl.rcParams['font.size'] = 10 
fig = plt.figure() 
ax = fig.add subplot(111, projection-'3d") 
for z in [2011, 2012, 2013, 2014]: 
xs = xrange(1,13) 
ys = 1000 * np.random.rand(12) 


color = plt.cm.Set2(random.choice(xrange(plt.cm.Set2.N))) 
ax.bar(xs, ys, zs-z, zdir-'y', color=color, alpha=0.8) 
ax.xaxis.set major locator(mpl.ticker.FixedLocator(xs)) 
ax.yaxis.set major locator(mpl.ticker.FixedLocator(ys)) 
ax.set. xlabel('Month') 
ax.set_ylabel(‘Y ear’) 
ax.set zlabel('Sales Net [usd]") 


plt.show() 
上 述 代码 生成 如 图 5-1 所 示 的 图 表 。 
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我 们 需要 像 在 2D 世界 中 那样 做 相同 的 准备 工作 。 不 同 的 是 ， 在 这 
里 需要 指定 后 端 (backend) 的 种 类 。 然 后 生成 了 一 些 随机 数据 ， 例 如 4 
年 的 销售 额 (2011-2014) 。 

我 们 需要 为 3D 上 坐标 轴 指 定 相 同 的 Z 值 。 

从 颜色 映射 集合 中 随机 选择 一 种 颜色 ， 然 后 把 它 和 每 一 个 Z-order 集 
合 的 xs、ys 对 关联 起 来 。 最 后 ， 用 xs、ys 对 泻 染 出 柱状 条 序列 。 


5.2.4 补充 说 日 


其 他 的 一 些 matplotlib 的 2D 绘 图 函数 在 这 里 也 是 可 以 用 的 ， 例 如 
scatter() 和 plot() 有 着 相似 的 接口 ， 但 有 额外 的 点 标记 大 小 参数 。 我 们 对 
contour、contourf 和 bar 也 非常 熟悉 。 

仅 在 ”3D ”中 出 现 的 新 图 表 类 型 有 线 框 图 (wireframe) 、 曲 面 网 

(surface) M= mK] (tri-surface) 。 

在 下 面 的 示例 代码 中 ， 我 们 绘制 了 著名 的 Pringle 函 数 的 三 幅面 图 ， 
数学 专业 上 的 叫 法 是 双 曲 面 抛物 线 (hyperbolic paraboloid) 。 

from mpl toolkits.mplot3d import Axes3D 

from matplotlib import cm 

import matplotlib.pyplot as plt 

import numpy as np 

n angles = 36 

n radii = 8 

# An array of radii 

# Does not include radius r=0, this is to eliminate duplicate points 

radii = np.linspace(0.125, 1.0, n radii) 

# An array of angles 


angles = np.linspace(0, 2 * np.pi, n angles, endpoint=False) 


# Repeat all angles for each radius 

angles = np.repeat(angles[..., np.newaxis], n radii, axis=1) 

# Convert polar (radii, angles) coords to cartesian (x, y) coords 
# (0, 0) is added here. There are no duplicate points in the (x, y) 
plane 

x = np.append(0, (radii * np.cos(angles)).flatten()) 

y = np.append(0, (radii * np.sin(angles)).flatten()) 

# Pringle surface 

z = np.sin(-x * y) 

fig = plt.figure() 

ax = fig.gca(projection='3d') 

ax.plot_trisurf(x, y, z, cmap-cm.jet, linewidth=0.2) 

plt.show() 

上 面 的 代码 生成 如 图 5-2 所 示 的 图 形 。 
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5.3 创建 3D 直方 图 


像 3D 柱 状 图 一 样 ， 我 们 可 能 想 创建 3D 直 方 图 。3D 直 方 图 可 以 用 来 
很 容易 地 识别 3 个 独立 变量 之 间 的 相关 性 。 可 以 用 它们 来 从 图 像 中 提取 


信息 ， 其 中 第 三 个 维度 可 以 是 所 分 析 的 图 像 的 (x， y) 空间 通道 的 强 
HE. 
本 节 将 学 习 如 何 创建 3D 直 方 图 。 
5.3.1 准备 工作 


回顾 一 下 ， 直 方 图 表示 的 是 一 些 值 在 特定 列 ( 通 党 叫做 “bin”〉 中 的 
发 生 率 。 那 么 ， 三 维 直 方 图 表示 的 是 在 一 个 网 格 中 的 发 生 率 。 网 格 是 矩 
形 的 ， 表 示 的 是 在 两 列 中 关于 两 个 变量 的 发 生 率 。 





5.3.2 un He 


在 这 个 计算 过 程 中 ， 我 们 将 进行 如 下 操作 。 

1. 使 用 Numpy， 因 为 其 拥有 计算 两 个 变量 的 直方 图 的 函数 。 

2. 用 正 态 分 布 函数 生成 x 和 y， 但 是 给 它们 提供 不 同 的 参数 ， 以 便 能 
区 分 结果 直方 图 的 相互 关系 。 

3. 用 相同 的 数据 集合 绘制 散 点 图 ， 展 示 散 点 图 和 3D 直 方 图 显示 上 的 
ARa 

下 面 是 实现 上 述 步 又 的 代码 。 


import numpy as np 














import matplotlib.pyplot as plt 


import matplotlib as mpl 


from mpl toolkits.mplot3d import Axes3D 
mpl.rcParams['font.size'] = 10 

samples = 25 

x 7 np.random.normal(5, 1, samples) 

y = np.random.normal(3, .5, samples) 

fig = plt.figure() 

ax = fig.add subplot(211, projection-'3d") 

# compute two-dimensional histogram 

hist, xedges, yedges = np.histogram2d(x, y, bins=10) 
# compute location of the x,y bar positions 

elements = (len(xedges) - 1) * (len(yedges) - 1) 
xpos, ypos = np.meshgrid(xedges[:-1]+.25, yedges[:-1]+.25) 
xpos = xpos.flatten() 

ypos = ypos.flatten() 

zpos = np.zeros(elements) 

# make every bar the same width in base 

dx = .1 * np.ones like(zpos) 

dy = dx.copy() 

# this defines the height of the bar 

dz = hist.flatten() 

ax.bar3d(xpos, ypos, zpos, dx, dy, dz, color-'b', alpha=0.4) 
ax.set xlabel( X Axis") 

ax.set_ylabel("Y Axis") 

ax.set_zlabel('Z Axis") 

# plot the same x,y correlation in scatter plot 

# for comparison 

ax2 = fig.add_subplot(212) 


ax2.scatter(x, y) 

ax2.set xlabel( X Axis") 
ax2.set_ylabel("Y Axis") 

plt.show() 

上 述 代码 生成 如 图 5-3 所 示 的 图 形 。 








图 5-3 
5.3.3 工作 原理 


我 们 用 np.histogram2d 生成 了 一 个 直方 图 ， 该 方法 返回 了 直方 图 
(his 、Xbin 边 界 和 y bin 边 界 。 

bar3d 函数 需要 x, y 空间 的 坐标 ， 因 此 需要 计算 出 一 般 的 矩阵 坐 
标 ， 对 此 我 们 使 用 np.meshgrid 函 数 把 x 和 y 位 置 的 癌 量 合并 到 2D 空 间 网 格 
H GERE) 。 我 们 可 以 使 用 它 在 xy 平面 位 置 上 绘制 矩形 条 。 

变量 dx 和 dy 表示 每 一 个 矩形 条 底部 的 宽度 ， 我 们 想 把 它 设 置 为 党 








数 ， 因 此 我 们 为 xy 平面 的 每 一 个 位 置 给 定 的 值 为 0.1 ARA EE e 

zi ERE (dz) 实际 上 是 计算 机 直方 图 《在 变量 hist 中 ) ， 它 表示 
在 一 个 特定 的 bin 中 一 般 的 x 和 y 样 本 的 个 数 。 

接 下 来 在 散 扣 图 (图 5-3〉 中 显示 了 一 个 2D 坐 标 轴 ， 也 呈现 了 两 组 
相似 但 起 始 参数 不 同 的 分 布 间 的 相互 天 系 。 

有 时 候 ，3D 给 予 我 们 更 多 的 信息 ， 并 以 一 个 更 好 的 方式 让 我 们 来 
理解 数据 所 包含 的 内 容 。 然 而 在 更 多 情况 下 ，3D 可 视 化 比 2D 更 加 让 人 
感到 迷惑 ， 所 以 在 舍弃 2D 选 择 3D 之 前 最 好 慎重 考虑 。 














5.4 在 matplotiib 中 创建 动 男 








本 市 将 学 习 如 何 让 图 表 动 起 来 。 有 时 候 ， 在 解释 当 我 们 改变 变量 值 
时 会 发 生 什 么 情况 的 时 候 ， 动 画 有 着 更 强 的 描述 性 。 主 要 函数 库 的 动画 
能 力 有 限 ， 但 通常 已 足够 了 。 接 下 来 将 解释 如 何 使 用 它们 。 








5.4.1 准备 工 


从 1.1 版 本 开始 ， 一 个 动画 框架 被 添加 到 了 标准 matplotlib 库 中 ， 
该 框架 主要 的 类 是 matplotlib.animation.Animation。 这 个 类 是 一 个 基 类 ， 
它 可 以 针对 不 同 的 行为 被 子 类 化 。 实 际 上 ， 访 框架 已 经 提供 了 几 个 类 ; 
TimedAnimation、ArtistAnimation 和 FuncAnimation。 表 5-1 给 出 了 这 几 
个 类 的 描述 。 














表 5-1 
Ky (RÆ) 描述 
此 类 用 matplotlib 创建 动画 。 它 仅仅 是 一 个 基 类 ， 应 该 被 子 类 化 
Animation (object) p . 
以 提供 所 需 的 行为 
类 名 ( 父 类 ) 描 ” 述 





这 个 动画 子 类 文 持 基于 时 间 的 动画 ， 每 interval*milliseconds 
绘制 一 个 新 的 帧 

在 调用 此 函数 之 前 ， 所 有 绘制 工作 应 当 已 经 完成 ， 并 且 相 关 
的 artists 已 经 被 保存 

其 通过 重复 地 调用 一 个 函数 生成 动画 , 可 以 为 函数 传 入 参数 ， 
参数 是 可 选 的 


为 了 能 把 动画 存储 到 一 个 视频 文件 中 ， 必 须 安装 ftmpeg 或 者 
mencoder。 这 些 包 的 安装 根据 我 们 所 使 用 的 操作 系统 的 不 同 以 及 不 同 版 


TimedAnimation (Animation) 





ArtistAnimation (TimedAnimation) 





FuncAnimation (TimedAnimation) 


本 间 的 差别 会 有 所 不 同 ， 因 此 我 们 把 它 留 给 杀 爱 的 读者 去 Google 一 下 有 
效 的 相关 信息 。 


5.4.2 Til E2 UE 


下 述 代码 演示 了 一 些 matplotlib 动 画 。 
import numpy as np 
from matplotlib import pyplot as plt 
from matplotlib import animation 
fig = plt.figure() 
ax = plt.axes(xlim=(0, 2), ylim=(-2, 2)) 
line, = ax.plot([], [], lw=2) 
def init(): 
"""C]lears current frame. 
line.set_data([], []) 


return line, 


Yr 


def animate(i): 
"""Draw figure. 


@param i: Frame counter 

@type i: int 

x = np.linspace(0, 2, 1000) 

y = np.sin(2 * np.pi * (x - 0.01 * i)) * np.cos(22 * np.pi * (x - 0.01 * 


line.set_data(x, y) 
return line, 


# This call puts the work in motion 


# connecting init and animate functions and figure we want to draw 
animator = animation.FuncAnimation(fig, animate, init_func=init, 
frames=200, interval=20, blit=True) 
# This call creates the video file. 
# Temporary, every frame is saved as PNG file 
# and later processed by ffmpeg encoder into MPEG4 file 
# we Can pass various arguments to ffmpeg via extra_args 
animator.save('basic animation.mp4', fps=30, 
extra, args-[' -vcodec', libx264'], 
writer-'ffmpeg file") 
plt.show() 
本 代码 将 在 执行 该 文件 的 文件 夹 中 创建 文件 basic animation.mp4, 
同时 显示 一 个 有 动画 的 图 形 窗口 。 该 视频 文件 可 以 用 大 多 数 文 持 MPEG- 
4 格式 的 视频 播放 器 打开 。 图 形 ( 帧 ) 看 上 去 如 图 5-4 所 示 。 





图 5- 4 
5.4.3 工作 原理 


上 面 例子 中 最 重要 的 几 个 函数 是 init0、animate0 和 save()。 首 先 ， 
通过 向 FuncAnimate 山 传 入 两 个 回调 函数 ，init 和 animator。 然 后 ， 调 用 它 
的 save〈) 方法 保存 视频 文件 。 表 5-2 是 关于 每 一 个 函数 更 多 的 细节 内 


Dd 


8. 





表 5-2 


init 


animate 


matplotlib.ani 
mation.Animati 


on.save 





FA 法 
通过 参数 init func fA matplotlib.animation.FuncAnimation 构造 
嚣 中， 在 绘制 下 一 帧 前 清空 当前 帧 

通过 参数 func 传 入 matplotlib.animation.FuncAnimation 构造 器 中 。 
通过 fig 参数 传 入 想 要 绘制 动画 的 图 形 窗口 ， 其 内 部 实际 上 是 将 fg 传 入 到 
matplotlib.animation.FuncAnimation 构造 器 中 , 把 要 绘制 图 形 的 窗口 和 
动画 事件 关联 起 来 。 该 函数 从 frames， 通 常 是 表示 许多 帧 的 迭代 器 获取 (可 选 的 ) 
通过 绘制 每 一 帧 保存 一 个 视频 文件 。 在 通过 编码 器 (ffmpeg 或 者 mencoder) 创 
建 一 个 视频 文件 之 前 ， 先 创建 临时 图 像 文件 。 该 方法 也 接收 各 种 参数 来 配置 视频 
输出 、 元 数据 《〈 如 作者 等 ) 、 使 用 的 编码 器 、 分 辨 率 /大 小 ， 等 等 。 其 中 一 个 参 
数 是 用 来 指定 使 用 何 种 视频 编码 器 ， 目 前 支持 的 类 型 有 ffmpeg. ffmpeg file 和 


mencoder 





5.4.4 t FR Wi B 


matplotlib.animation.ArtistAnimation 的 用 法 和 FuncAnimation 不 同 ， 
我 们 必须 事先 绘制 出 每 一 个 artist， 然 后 用 所 有 artist 的 不 同 帧 来 实例 化 
ArtistAnimation28. Artist) Hii X}matplotlib.animation. TimedAnimation 
ASH] Ripe, ENED OWL, DUE CREE T IST TRTR zo 





CMS 


不 笠 的 是 ， 对 于 Mac OS X 的 用 户 来 说 ， 动 画 框 架 在 该 平台 上 却 让 
人 很 苦恼 ， 有 时 候 甚 至 不 能 工作 。 这 在 matplotlib 未 来 的 版 本 中 会 有 所 改 


进 。 


5.5 用 OpenGEL 制作 动 男 


使 用 OpenGL 的 动机 来 源 于 CPU 处 理 能 力 的 限制 ， 限 制 体现 在 当 我 
们 面临 一 项 要 可 视 化 成 干 上 万 个 数据 点 的 工作 ， 并 且 要 求 其 快速 执行 
(有 时 甚至 是 实时 的 ) 的 时 候 。 

现代 计算 机 拥有 强大 的 GPU 用 于 加 速 与 可 视 化 相关 的 计算 (比如 游 
R) 。 它 们 没有 理由 不 能 用 于 科学 相关 的 可 视 化 。 

实际 上 ， 编 写 硬 件 加 速 的 软件 至 少 有 一 个 缺点 。 束 硬件 的 依赖 而 
言 ， 现 代 图 形 卡 要 求 有 专 有 的 驱动 ， 有 时候 驱 动 在 目标 平台 /机 器 〈 例 
如 用 户 的 笔记 本 ) 上 是 无 法 使 用 的 ， 即 使 是 可 用 的 ， 有 时 候 你 也 不 想 下 
在 那 花 大 把 的 时 间 去 安装 驱动 所 依赖 的 软件 ， 相 反 ， 你 想 把 时 间 花 费 在 
展示 你 的 发 现 ， 并 演示 你 的 研究 成 果 上 。 虽 然 这 并 不 会 成 为 编写 人 硬件 加 
速 软件 的 障碍 ， 但 是 你 还 是 需要 考虑 一 下 这 件 事情 ， 并 且 衡 量 一 下 在 项 
目 中 引入 这 个 复杂 性 的 成 本 和 收益 。 

解释 完 缺 点 后 ， 我 们 可 以 对 硬件 加 速 可 视 化 说 “是 ”， 可 以 对 
OpenGL， 这 一 图 形 加 速 的 工业 标准 说 “是 ”。 

我 们 将 使 用 OpenGL 来 完成 本 节 的 内 容 ， 因 为 它 是 跨 平 台 的 ， 因 此 
所 有 的 例子 应 该 在 Linux、Mac 或 者 Windows 上 都 是 工作 的 ， 就 像 我 们 
所 演示 的 那样 。 这 里 假定 你 已 经 安装 了 所 需 的 硬件 和 操作 系统 级 别 的 驱 
5j]. 




















5.5.1 准备 工 


如 有 果 你 从 来 没有 使 用 过 OpenGL， 现 在 我 们 将 做 一 个 快速 的 介绍 来 
帮助 你 理解 。 但 是 要 真正 的 了 解 OpenGL， 至 少 要 阅读 并 理解 一 整 本 











书 。OpenGL 是 一 个 规范 ， 而 不 是 一 个 实现 ， 因 此 OpenGL 本 喘 并 没有 任 
何 实现 代码 ， 所 有 的 实现 是 遵循 该 规范 而 开发 的 库 。 这 些 库 是 跟随 你 的 
操作 系统 ， 或 者 由 如 NVIDIA 或 者 AMD/ATI 等 不 同 的 显卡 厂商 发 布 的 。 

此 外 ，OpenGL 只 关注 图 形 泻 染 而 不 是 动画 、 定 时 和 其 他 复杂 的 事 
情 ， 这 些 事情 是 留 给 其 他 库 来 完成 的 。 


Gs 
OpenGL 动 画 基础 


因为 OpenGL 是 一 个 图 形 演 染 库 ， 所 以 它 不 知道 我 们 在 屏幕 上 绘制 
的 是 什么 。 它 不 关心 我 们 画 的 是 否 是 一 只 猫 、 一 个 球 ， 或 者 一 条 线 ， 还 
是 所 有 这 些 对 象 。 因 此 ， 要 移动 一 个 已 经 演 染 的 对 象 ， 需 要 消除 并 重 给 
整个 图 像 。 为 了 让 茶 个 物体 动 起 来 ， 我 们 需要 很 快 地 循环 绘制 和 重 绘 所 
有 内 容 ， 并 把 它 显 示 给 用 户 ， 这 样 用 户 就 认为 他 /她 正在 观看 一 个 动 


1E] 











在 机 器 上 安装 OpenGL 是 一 件 和 平台 相关 的 过 程 。 在 Mac OS X 
E, OpenGL “的 安装 通过 系统 升级 来 完成 ， 但 是 开发 库 〈 上 所 谓 的 “ 头 文 
件 ”) 是 Xcode 开发 包 的 一 部 分 。 

在 Windows 系 统 上 ， 最 好 的 方式 是 安装 电脑 的 显卡 厂商 的 最 新 显卡 
驱动 程序 。OpenGL 可 能 并 不 需要 它们 就 可 以 工作 ， 但 那样 的 话 你 束 很 
可 能 失去 了 原版 驱动 程序 的 最 新 特性 。 

在 Linux 平台 上 ， 如 果 你 不 反对 安装 闭 源 软 件 ， 在 操作 系统 发 行 版 
目 身 的 软件 管理 器 中 ， 或 者 显卡 厂商 网 站 上 的 二 进 制 安装 文件 ， 都 提供 
了 可 供 下 载 的 特定 厂商 的 驱动 。Mesa3D 几 平一 直 都 是 OpenGL 的 标准 实 
现 ， 它 也 是 最 有 名 的 OpenGL 实 现 ， 使 用 Xorg 来 为 Linux、FreeBSD 和 类 
似 操 作 系 统 的 OpenGL 提 供 支持 。 
基本 上 ， 在 Debian/Ubuntu 系 统 中 ， 应 当 安 装 下 列 软件 包 及 其 依赖 。 


























$ sudo apt-get install libgl1-mesa-dev libgl-mesa-dri 

然后 ， 你 就 可 以 使 用 一 些 开发 库 和 /或 者 框架 来 实际 地 编写 OpenGL 
文 持 的 应 用 程序 了 。 

我 们 在 这 里 只 关注 Python 中 的 OpenGL 绘 图 ， 因 此 我 们 将 回顾 在 
Python 中 使 用 最 多 的 一 些 构建 在 OpenGL 之 上 的 库 和 框架 。 我 们 会 提 到 
matplotlib 及 其 当前 和 将 来 对 OpenGL 的 文 持 。 

€ Mayavi: 这 是 一 个 专门 用 于 3D 的 库 。 

€ Pyglet: 这 是 一 个 纯 Python 的 图 形 库 。 

€ Glumpy: 这 是 一 个 构建 在 Numpy 之 上 的 快速 图 形 泻 染 库 。 

€ Pyglet 和 OpenGL: 这 是 用 来 可 视 化 大 数据 〈 百 万 级 数据 点 ) 
的 。 





5.5.2 un 步骤 


专业 化 的 项 目 Mayavi 是 一 个 功能 全 面 的 3D 图 形 库 ， 它 主要 用 于 高 
级 3D 演 染 。 它 包含 在 已 经 提 到 的 Python F, W EPD (虽然 没有 免费 
许可 ) 。 这 也 是 在 Windows 和 Mac OS X 操 作 系 统 上 的 推荐 安装 方式 。 
在 Linux 平 台 上 ， 也 可 以 通过 pip 轻 松 地 安装 ， 代 码 如 下 。 

$ pip install mayavi 

Mayavi ”可 以 作为 一 个 开发 库 /框架 ， 或 者 一 个 应 用 程序 来 使 用 。 
Mayavi ”应 用 程序 包含 了 一 个 可 视 化 编辑 器 ， 可 以 用 于 简单 的 数据 研究 
和 一 些 交 互 可 视 化 。 

作为 一 个 图 形 库 ，Mayavi 的 用 法 和 matplotlib 相 似 。 它 可 以 从 一 个 脚 
本 接口 中 ， 或 者 作为 一 个 完全 的 面 同 对 象 的 库 来 使 用 。Mayavi 的 大 多 数 
接口 在 mlab 模 块 中 ， 可 以 使 用 它们 来 制作 动画 。 例 如 ， 可 以 像 下 面 代码 
那样 来 完成 一 个 简单 的 Mayavi 动 画 。 


import numpy 





from mayavi.mlab import * 
# Produce some nice data. 
n mer, n long = 6, 11 
pi = numpy.pi 
dphi = pi/1000.0 
phi = numpy.arange(0.0, 2*pi + 0.5*dphi, dphi, 'd") 
mu = phi*n mer 
x = numpy.cos(mu)*(1+numpy.cos(n_long*mu/n_mer)*0.5) 
y = numpy.sin(mu)*(1+numpy.cos(n_long*mu/n_mer)*0.5) 
z = numpy.sin(n_long*mu/n_mer)*0.5 
# View it. 
| = plot3d(x, y, z, numpy.sin(mu), tube_radius=0.025, 
colormap-'Spectral') 
# Now animate the data. 
ms = |.mlab. source 
for i in range(100): 
x = numpy.cos(mu)*(1+numpy.cos(n_long*mu/n_mer + 
numpy.pi*(it+1)/5.)*0.5) 
scalars = numpy.sin(mu + numpy.pi*(i+1)/5) 
ms.set(x=x, scalars=scalars) 


上 述 代码 将 生成 如 图 5-5 所 示 的 带 旋 转 图 形 的 窗口 。 


Mayavi Scene 1 


Pr mummmmee ktü a 





我 们 生成 了 数据 集合 ， 并 创建 了 x、y 和 z 三 个 函数 。 这 些 函 数 被 用 
在 plot3d 函 数 中 作为 图 形 2m 起 始 位 置 。 
然后 ， 导 入 mlab_source 对 象 ， 以 便 能 在 点 和 标量 的 级 别 上 操作 图 


形 。 然 后 使 用 这 个 特性 在 循环 中 设置 特定 的 点 和 标量 来 创建 一 个 100 帧 
的 旋转 动画 。 
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如 有 果 你 想 实 验 更 多 的 内 容 ， 最 简单 的 方式 是 打开 IPython， 叶 入 
myayvi.lab， 并 运行 一 些 名 字 为 test_* 的 函数 。 

为 了 了 解 到 底 发 生 了 什么 ， 你 可 以 借助 IPython 的 功能 来 检查 和 研究 
Python 源码 ， 像 下 面 代码 显示 的 这 样 。 


In [1]: import mayavi.mlab 








In [2]: mayavi.mlab.test_simple_surf?? 
Type: function 
String Form:<function test_simple_surf at 0x641b410> 
File: /usr/lib/python2.7/dist-packages/mayavi/tools/helper_ 
functions.py 
Definition: mayavi.mlab.test_simple_surf() 
Source: 
def test_simple_surf(): 
"""Test Surf with a simple collection of points.""" 

x, y = numpy.mgrid[0:3:1,0:3:1 ] 

return surf(x, y, numpy.asarray(x, 'd')) 

这 里 ， 我 们 看 到 如 何 通 过 在 函数 名 后 面 添加 两 个 问号 C029"). 让 
IPython 找 到 函数 的 源码 并 显示 。 这 是 一 个 真实 的 探索 性 计算 ， 经常 在 可 
视 化 社区 中 被 使 用 ， 因 为 它 是 了 解数 据 和 代码 的 一 个 快速 的 方式 。 

Pyglet 快 速 入 门 

Pyglet 是 男 一 个 著名 的 Python 库 ， 可 以 让 编写 图 形 和 与 窗口 相关 的 
应 用 程序 变 得 轻松 起 来 。 它 通过 模块 pyglet.gl 来 文 持 OpenGL， 但 是 为 了 
能 使 用 Pyglet 的 威力 你 不 必 直 接 使 用 这 个 模块 。 通 过 pyglet.graphics 来 使 
用 它 是 最 方便 的 用 法 。 

Pyglet 采 用 了 一 种 和 Mayavi 不 同 的 方式 。 它 没有 可 视 化 的 IDE， 你 
要 负责 从 创建 窗口 ， 到 发 出 一 个 低级 别 的 OpenGL 调用 来 配置 OpenGL 
上 下 文 环境 的 所 有 工作 。 它 有 时 比 Mayavi 慢 ， 但 是 你 所 获得 的 是 控制 应 

















用 程序 的 每 个 部 分 的 能 力 。 这 有 时 候 也 意味 着 会 投入 更 多 的 工作 时 间 ， 
但 是 通常 来 讲 ， 它 也 意味 着 你 的 应 用 程序 有 更 高 的 质量 和 性 能 。 

可 以 通过 下 面 的 代码 来 得 到 一 个 简单 的 应 用 程序 《图像 查看 右 ) 。 

import pyglet 

window = pyglet.window. Window() 

image = pyglet.resource.image(‘kitten.jpg’) 

@window.event 

def on. draw(): 

window.clear() 
image.blit(0, 0) 

pyglet.app.run() 

上 述 代码 创建 了 一 个 窗口 ， 加 载 了 一 幅 图 像 ， 并 指定 了 当 我 们 绘制 
一 个 窗口 对 象 时 所 发 生 的 事件 (换言之 ,我们 为 on_draw 事 件 定义 了 一 
个 事件 处 理 器 ) 。 最 后 ， 运 行 我 们 的 程序 (piglet.app.run())。 

在 实现 的 内 部 ， 程 序 使 用 OpenGL 在 窗口 上 进行 绘制 。 此 接口 可 以 
从 pyglet.gl 模 块 获得 。 然 而 直接 使 用 它 是 不 高 效 的 ， 因 此 pyglet 在 
pyglet.graphics 中 提供 了 一 个 更 简单 的 接口 ， 在 这 个 接口 内 部 使 用 了 顶点 
数组 (vertex arrays) 和 缓冲 区 (buffers) 。 

Glumpy 快 速 入 门 

Glumpy 是 一 个 OpenGL+NumPy 库 ， 它 用 OpenGL 来 进行 快速 Numpy 
可 视 化 。 它 是 一 个 由 Nicolas Rougier 启动 的 开源 项 目 ， 致 力 于 高 效 可 视 
化 。 为 了 使 用 它 ， 我 们 需要 Python OpenGL 绑 定 (bindings) . SciPy, 
当然 还 有 Glumpy。 安 装 命令 如 下 。 

sudo apt-get install python-opengl 

sudo pip install scipy 

sudo pip install glumpy 

Glumpy 使 用 OpenGL 纹理 (textures) 来 表示 阵列 ， 因 为 这 恐怕 是 


在 现代 图 形 硬件 上 最 快 的 可 视 化 方法 了 。 

Pyprocessing 简介 

Pyprocessing 和 Processing (http://processing.org) 的 工作 方式 极其 相 
(th. Pyprocessing PHY A 2 eR BA Processing Ph Zi ze FH [8] AY 2 WR UREN 
a&Processing/IPython, RH CANE T i Pyprocessing Ez FF At ia AY JL 
乎 所 有 知识 。 为 了 使 用 它 ， 我 们 唯一 需要 做 的 事情 是 导入 pyprocessing 
包 ， 用 Pyprocessing 函 数 和 数据 结构 来 编写 剩余 的 代码 ， 然 后 调用 run() 
函数 来 执行 。 

有 很 多 关于 OpenGL 以 及 如 何在 C/C++ 或 者 任何 其 他 语言 binding 
中 使 用 它 的 免费 教程 。 在 OpenGL 官方 wiki 上 提供 了 一 个 清单 ， 地 址 
为 http://www.opengl. 
org/wiki/Getting_started#Tutorials_and_How_To_Guides. 

总 之 ， 还 有 许多 处 理 Python、OpenGL 和 3D 可 祝 化 的 项 目 ， 其 中 有 
一 些 比 较 年 轻 ， 有 一 些 已 经 不 再 维护 了 ， 但 是 如 采 你 发 现 有 项 目 应 该 被 
提 到 ， 请 告诉 我 们 。 

注释 

[1]. 应 为 FuncAnimation 。 





本 章 将 学 习 以 下 内 容 。 

€ H PIL 做 图 像 处 理 

«€ 绘制 带 图 像 的 图 表 

€ 在 带 其 他 图 形 的 图 表 中 显示 图 像 

€ 使 用 Basemap 在 地 图 上 绘制 数据 

€ 使 用 Google Map API 在 地 图 上 绘制 数据 
€ 生成 CAPTCHA 图 像 








本 音 将 探索 如 何 使 用 图 像 和 地 图 来 一 起 协同 工作 。Python 有 一 些 著 
名 的 图 像 库 ， 人 允许 我 们 以 美学 和 科学 的 方式 处 理 图 像 。 

我 们 将 演示 如 何 通过 应 用 滤波 器 和 调整 图 像 大 小 来 进行 图 像 处 理 ， 
以 此 来 了 解 PIL 的 能 

另外 ， 我 们 将 展示 如 何 把 图 像 文 件 作 为 matplotlib 图 表 的 注解 
(annotation) . 

为 了 处 理 地 理 数 据 集合 的 数据 可 视 化 ， 我 们 将 学 习 Python 的 可 用 库 
和 公开 API 的 功能 ， 并 将 其 应 用 于 基于 地 图 的 视觉 呈现 中 。 

在 最 后 一 节 中 我 们 将 展示 用 Python 如 何 创建 CAPTCHA 测 试图 像 。 





6.2 H PIL tii we 


如 有 果 我 们 能 用 
WIMP (http://en.wikipedia.org/wiki/WIMP_(computing)) 或 者 
WYSIWYG  (http;//en.wikipedia.org/wiki/WYSIWY G) 来 达到 相同 的 目 
的 ， 为 什么 要 使 用 Python 来 做 图 像 处 理 呢 ? 原因 是 我 们 想 要 创建 一 个 自 
动 化 的 系统 来 实时 地 处 理 图 像 ， 而 不 需要 人 的 参与 ， 进 而 优化 图 像 处 理 
的 流程 。 





6.2.1 准备 工作 


请 注意 ，PIL 华 标 系统 假定 坐标 “0，0) 位 于 左上 角 。 

Image 模 块 有 一 个 非常 有 用 的 类 和 一 些 实例 方法 来 对 加 载 的 图 像 对 
象 (im) 执行 基本 的 操作 。 

€ im = Image.open 人 filename): 打 开 一 个 文件 ， 并 把 图 像 加 载 到 im 对 
RE. 

€ im.crop(box): WBF box.box 定 义 的 左 、 上 、 右 、 下 像素 坐标 “〈 例 
如 box = (0, 100, 100, 100)) 指定 的 坐标 区 域内 的 图 像 。 

全 im.filter(filter): 为 图 像 应 用 一 个 滤波 器 ， 并 返回 滤波 后 的 图 像 。 

€ ”im.histogram(): 返 回 该 图 像 的 直方 图 列表 ， 其 中 的 每 一 个 元 素 代 
表 像 素 值 。 对 于 单 通 道 图 像 ， 列 表 中 的 元 素数 目 为 256， 但 是 如 果 图 像 
不 是 单 通道 图 像 ， 列 表 中 会 包含 更 多 元 素 。 对 于 RGB 图 像 ， 列 表 包 含 
768 个 元 素 〈 每 个 通道 有 256 个 值 ) 。 

€ im.resize(size, filter): 重 新 调整 图 像 大 小 ， 并 且 使 用 一 个 滤波 器 进 
行 重新 采样 (resampling) 。 可 能 的 滤波 器 有 NEAREST、BILINEAR、 

















BICUBIC 和 ANTIALIAS。 默 认 值 为 NEAREST。 

€ im.rotate(angle, filter): 逆 时 针 方 向 旋转 图 像 。 

€ im.split(): 分 离 图像 波 段 (band) 并 返回 一 个 单一 波段 的 元 组 。 这 
对 于 分 离 一 个 RGB 图 像 为 3 个 单独 的 波段 图 像 非常 有 用 。 

€ im.transform(size, method, data, filter): Hj data 和 filter 对 一 个 给 定 
的 图 像 做 转换 ， 转 换 类 型 可 以 是 AFFINE、EXTENT、QUAD 和 MESH。 
可 以 在 官方 文档 中 了 解 更 多 关于 转换 的 内 容 。Data 设 定 了 原始 图 像 中 转 
换 被 应 用 的 区 域 。 

ImageDraw 模 块 允 许 我 们 在 图 像 上 绘图 ， 可 以 用 arc、ellipse、 
pieslice、point 和 polygon 等 函数 来 修改 所 加 载 网 像 的 内 容 。 

ImageChops 模 块 包含 一 些 图 像 通 道 操 作 函 数 〈 因 此 命名 为 
Chops) ， 这 些 函 数 可 以 被 用 于 图 像 合成 、 着 色 、 特 效 以 及 其 他 处 理 操 
作 。 通 道 操 作 仅 限于 8 比特 的 图 像 。 下 面 是 一 些 有 趣 的 通道 操作 。 

@  ImageChops.duplicate(image): 拷贝 当前 图 像 到 一 个 新 的 图 像 对 
象 。 

€ ImageChops.invert(image): 反 转 一 幅 图 像 并 返回 一 个 副本 。 

€ ImageChops.difference(imagel, image2): 在 不 用 目测 的 情况 下 验 
证 两 幅 图 是 否 相 同时 非常 有 用 。 

ImageFilter 模块 包含 了 卷 积 核 (convolution kernels) 类 的 实现 ， 这 
些 类 人 允许 我 们 创建 定制 化 的 卷 积 核 。 模 块 还 包含 了 一 些 功 能 健全 的 常用 
滤波 上 器， 我们 能 在 图 像 上 应 用 这 些 著 名 的 滤波 器 (BLUR 和 
MedianFilter) . 

ImageFilter 模块 提供 了 两 种 过 滤器 : 固定 的 图 像 增强 滤波 器 和 需要 

HEB A Reba, TUN, Ead 的 核 大 小 作为 参数 。 
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在 IPython 中 可 以 很 容易 地 得 到 所 有 固定 的 滤波 如 的 名 字 ， 代 码 如 


In [1]: import ImageFilter 

In [2]: [f for f in dir(ImageFilter) if f.isupper()] 

Out[2]: 

['BLUR', 

'"CONTOUR', 

'DETAIL', 

'EDGE, ENHANCE, 

'EDGE ENHANCE MORE, 

‘EMBOSS', 

'FIND_EDGES', 

‘SHARPEN’, 

‘SMOOTH’, 

'SMOOTH MORE! 

下 一 个 例子 展示 的 是 如 何在 任意 可 文 持 的 图 像 上 应 用 所 有 当前 文 持 

FY EL EVEIA e 

import os 

import sys 

from PIL import Image, ImageChops, ImageFilter 

class DemoPIL(object): 

def init (self, image file-None): 

self.fixed filters = [ff for ff in dir(ImageFilter) if ff.isupper()] 
assert image file is not None 
assert os.path.isfile(image file) is True 
self.image file = image file 


self.image = Image.open(self.image file) 


def make temp dir(self): 
from tempfile import mkdtemp 
self.ff tempdir = mkdtemp(prefix-"ff demo") 
def get temp namew(self, filter name): 
name, ext = os.path.splitext(os.path.basename(self.image_file)) 
newimage file = name + "-" + filter name + ext 
path = os.path.join(self.ff tempdir, newimage file) 
return path 
def get filter(self, filter name): 
note the use python's eval() builtin here to return function object 
real filter = eval("ImageFilter." + filter name) 
return real filter 
def apply. filter(self, filter name): 
print "Applying filter: " + filter name 
filter callable = self. get filter(filter name) 
# prevent calling non-fixed filters for now 
if filter name in self.fixed filters: 
temp img = self.image.filter(filter callable) 
else: 
print "Can't apply non-fixed filter now." 
return temp img 
def run, fixed filters demo(self): 
self. make temp dir() 
for ffilter in self.fixed filters: 
temp img - self.apply. filter(ffilter) 
temp img.save(self. get temp namew(ffilter)) 


print "Images are in: (0) ".format((self.ff tempdir),) 


if name --" main ^" 
assert len(sys.argv) == 2 
demo image = sys.argv[1] 
demo = DemoPIL(demo image) 
# will create set of images in temporary folder 
demo.run fixed filters demo() 
我 们 可 以 从 命令 行 容 易 地 运行 改 代码 : 
$ python ch06_rec01_01_pil_demo.py image.jpeg 
把 这 个 示例 代码 封装 在 “DemoPIL 类 中 ， 这 样 就 易于 对 它 进行 扩 
展 ， 在 示例 函数 run_fixed _ filters_demo 中 共享 相同 的 代码 。 在 这 里 ， 相 
同 的 代码 包括 打开 图 像 文件 、 测 试 文件 是 否 是 一 个 真实 的 文件 、 创 建 临 
时 目录 来 存储 泪 波 后 的 图 像 、 创 建 滤波 后 的 图 像 的 文件 名 和 同 用 户 打 印 
有 用 的 信息 。 通 过 这 种 方式 把 代码 更 好 地 组 织 起 来 ， 从 而 能 容易 地 让 我 
们 关注 在 演示 函数 上 ， 而 不 用 去 接触 代码 的 其 他 部 分 。 
这 个 示例 将 打开 图 像 文件 ， 对 该 图 像 应 用 ImageFilter 中 可 用 的 每 一 
个 固定 滤波 器 ， 并 将 滤波 后 的 图 像 存 储 到 一 个 唯一 的 临时 文件 夹 中 。 我 
们 可 以 得 到 这 个 临时 文件 夹 的 位 置 ， 这 样 就 可 以 用 操作 系统 的 文件 管理 
医 打 开 它 并 查看 所 创建 的 图 像 。 
作为 一 个 可 选 的 练习 ， 你 可 以 尝试 扩展 这 个 示例 类 来 辐 给 定 的 图 像 
应 用 ImageFilter 中 其 他 可 用 的 滤波 器 。 

















0.2.2 un Ip 


Zr BEP Pp TR SU fo] RETE AS Brig SCPE SEP TA AOC TE. 18 
rE TS Bette, HEFER H eke CARCI RIN ATA ER XC 
件 ， 并 按 给 定 比 例 〈 本 例 中 为 0.1) 调整 它们 的 大 小 ， 然 后 把 每 一 个 文 
件 存 储 到 一 个 叫做 thumbnail_folder 的 文件 夹 中 。 











import os 
import sys 
from PIL import Image 
class Thumbnailer(object): 
def init (self, src_folder=None): 
self.src folder = src folder 
self.ratio = .3 
self.thumbnail_folder = "thumbnails" 
def _create_thumbnails_folder(self): 
thumb_path = os.path.join(self.src_folder, self.thumbnail_folder) 
if not os.path.isdir(thumb_path): 
os.makedirs(thumb_path) 
def build thumb path(self, image path): 
root = os.path.dirname(image path) 
name, ext = os.path.splitext(os.path.basename(image path)) 
suffix = ".thumbnail" 
return os.path.join(root, self.thumbnail. folder, name + suffix + ext) 
def load files(self): 
files = set() 
for each in os.listdir(self.src folder): 
each = os.path.abspath(self.src folder + / + each) 
if os.path.isfile(each): 
files.add(each) 
return files 
def thumb size(self, size): 
return (int(size[0] * self.ratio), int(size[1] * self.ratio)) 


def create thumbnails(self): 


self._create_thumbnails_folder() 
files = self. load files() 
for each in files: 
print "Processing: " * each 
try: 
img = Image.open(each) 
thumb size = self. thumb size(img.size) 
resized = img.resize(thumb size, Image. ANTIALIAS) 
savepath = self. build thumb path(each) 
resized.save(savepath) 
except IOError as ex: 


print "Error: " * str(ex) 


TT TT 


if name --" main ": 
# Usage: 
# ch06_rec01 02 pil thumbnails.py my. images 
assert len(sys.argv) == 2 
src, folder = sys.argv[1] 
if not os.path.isdir(src folder): 
print "Error: Path '{0}' does not exits.".format((src folder)) 
Sys.exit(-1) 
thumbs = Thumbnailer(src folder) 
# optionally set the name of thumbnail folder inside *src_folder*. 
thumbs.thumbnail folder - "THUMBS" 
# define ratio to resize image to 
# 0.1 means the original image will be resized to 1096 of its size 
thumbs.ratio = 0.1 


# will create set of images in temporary folder 


thumbs.create_thumbnails() 


6.2.3 THEN 


对 于 给 定 的 src folder VK, 3X4 DUOC HE AN ATA SCF IF 
试用 Image. open() 加 载 其 中 的 每 一 个 文件 ， 这 是 create_thumbnails() RA Zt 
的 逻辑 。 如 果 尝 试 加 载 的 文件 不 是 一 个 图 像 文 件 ， 程 序 将 抛 出 IOError 噶 
常 ， 并 打印 出 错误 信息 ， 然 后 忽略 这 个 文件 去 顺序 地 读 取 下 一 个 文件 。 

如 果 想 对 所 加 载 的 文件 有 更 多 的 控制 ， 应 当 改 变 load_filesO 函 数 让 
它 只 包括 特定 扩展 名 《文件 类 型 ) 的 文件 ， 代 码 如 下 。 


for each in os.listdir(self.src_folder): 








if os.path.isfile(each) and os.path.splitext(each) is in (‘.jpg’, '.png’): 
self. files.add(each) 
这 并 不 是 安全 的 做 法 ， 因 为 文件 扩展 名 并 没有 定义 文件 类 型 ， 它 只 
是 帮助 操作 系统 为 文件 关联 了 一 个 默认 的 程序 ， 但 是 这 种 方式 在 大 多 数 
情况 下 是 适用 的 ， 并 且 比 读 取 文 件 头 来 确定 文件 内 容 〈 这 也 不 能 保证 文 
件 就 真正 是 其 前 几 个 字 节 所 说 的 格式 ) 要 简单 。 











6.2.4 补充 说 日 


通过 PIL 可 以 容易 地 把 图 像 从 一 种 格式 转换 到 另 一 种 格式 ， 尽 管 这 
种 方式 使 用 的 不 是 很 多 。 这 通过 两 个 简单 的 操作 就 可 以 做 到 : 首先 ， 使 
用 open0 以 原 格式 打开 一 幅 图 像 ， 然 后 用 save TE RRETARA — PUE 
式 。 文 件 格 式 可 以 通过 文件 名 的 扩展 ( .png 或 者 .jpeg〉 隐 式 地 指定 ， 
也 可 以 通过 传 入 save() 函 数 的 格式 参数 显 式 地 给 出 。 











除了 纯 数 据 值 之 外 ， 图 像 可 以 用 来 增强 可 视 化 的 效果 。 很 多 例子 已 
经 证 明 ， 通 过 使 用 象征 性 的 图 像 ， 我 们 可 以 把 图 表 更 深刻 地 映射 到 观察 
者 的 心智 模型 ， 从 而 帮助 他 们 更 好 地 更 持久 地 记 住 可 视 化 的 信息 。 一 种 
做 法 是 在 数据 上 放置 图 像 ， 把 数据 值 和 它们 要 展示 的 内 容 映射 起 来 。 
matplotlib 库 可 以 实现 这 样 的 功能 ， 我 们 将 演示 如 何 做 到 这 一 点 。 


6.3.1 准备 工作 


我 们 使 用 Bobby Henderson 创 作 的 故事 The Gospel of the Flying 
Spaghetti Monster by Bobby Henderson 中 一 个 虚构 的 例子 。 在 这 个 故事 
中 ， 作 者 把 海盗 数 和 海面 温度 关联 起 来 。 为 了 强调 这 种 关联 ， 我 们 用 测 
量 了 海面 温度 的 相同 年 份 的 海盗 数量 按 比例 显示 成 海盗 裔 的 大 小 。 

我 们 将 利用 Python matplotlib 库 的 功能 ， 使 用 可 进行 高 级 位 置 设置 
的 图 像 和 文本 ， 并 用 箭头 对 图 表 进 行 注 解 。 

所 有 下 一 节 所 需要 的 文件 都 可 以 在 ch06 文 件 夹 下 的 源 代 码 库 中 找 
到 。 





0.3.2 un +E oR 


下 面 的 例子 演示 了 如 何 用 图 像 和 文本 向 一 幅 图 表 添 加 注解 。 
import matplotlib.pyplot as plt 

from matplotlib._ png import read_png 

from matplotlib.offsetbox import TextArea, OffsetImage,\ 


AnnotationBbox 


def load_data(): 
import csv 
with open( pirates temperature.csv', 'r') as f: 
reader = csv.reader(f) 
header = reader.next() 
datarows = [] 
for row in reader: 
datarows.append(row) 
return header, datarows 
def format. data(datarows): 
years, temps, pirates = [], [], [] 
for each in datarows: 
years.append(each[0]) 
temps.append(each[1]) 
pirates.append(each[2]) 
return years, temps, pirates 
在 定义 完 helper 函 数 之 后 ， 我 们 可 以 开始 厦 手 创建 图 表 对 象 ， 并 癌 
其 添加 子 区 。 我 们 将 把 船 的 图 片 按 比例 调整 到 合适 的 大 小 ， 并 用 其 对 每 
一 年 的 数据 进行 注解 ， 代 码 如 下 。 


TT TT 


if name --" main ^" 
fig = plt.figure(figsize=(16,8)) 
ax = plt.subplot(111) # add sub-plot 

header, datarows = load_data() 

xlabel, ylabel, _ = header[O]heador[1] 

years, temperature, pirates = format_data(datarows) 

title = "Global Average Temperature vs. Number of Pirates" 


plt.plot(years, temperature, lw=2) 


plt.xlabel(xlabel) 
plt.ylabel(ylabel) 
# for every data point annotate with image and number 
for x in xrange(len(years)): 
# current data coordinate 
xy = years[x], temperature[x] 
# add image 
ax.plot(xy[0], xy[1], "ok") 
# load pirate image 
pirate = read png('tall-ship.png") 
# zoom coefficient (move image with size) 
zoomc - int(pirates[x]) * (1 / 90000.) 
# create OffsetImage 
imagebox = OffsetImage(pirate, zoom-zoomc) 
# create anotation bbox with image and setup properties 
ab = AnnotationBbox(imagebox, xy, 
xybox=(-200.*zoomc, 200.*zoomc), 
xycoords-'data', 
boxcoords- "offset points", 
pad=0.1, 
arrowprops=dict(arrowstyle="->", 
connectionstyle="angle,angleA=0,angleB=-30,rad=3") 
) 
ax.add_artist(ab) 
# add text 
no_pirates = TextArea(pirates[x], minimumdescent=False) 


ab = AnnotationBbox(no_pirates, xy, 
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xybox=(50., -25.), 
xycoords- data', 
boxcoords- "offset points", 
pad=0.3, 
arrowprops=dict(arrowstyle="->", 
connectionstyle="angle,angleA=0,angleB=-30,rad=3") 
) 
ax.add_artist(ab) 

plt.grid(1) 

plt.xlim(1800, 2020) 

plt.ylim(14, 16) 

plt.title(title) 

plt.show() 

上 述 代码 将 生成 如 图 6-1 所 示 的 图 表 。 


Global Average Temperature vs. Number of Pirates 








6.3.3 工作 原理 


我 们 从 创建 一 个 大 小 合适 《也 就 是 16x8) 的 图 表 开 始 。 我 们 需要 这 
个 尺寸 来 适应 我 们 想 显 示 的 图 像 大 小 。 现 在 我 们 使 用 csv 模块 从 文件 加 
载 数据 。 实 例 化 一 个 csv reader 对 象 之 后 ， 就 可 以 对 文件 数据 进行 逐 行 
地 运 代 了 。 注 意 第 一 行 很 特殊 ， 它 是 描述 数据 列 的 列 头 。 因 为 已 经 在 x 
轴 上 绘制 了 年 份 ， 在 y 轴 上 绘制 了 温度 ， 读 取 坐 标 轴 标 签 值 的 代码 如 
n 

xlabel, ylabel, = header 

并 用 下 面 两 行 代 码 设置 坐标 轴 标 签 。 

plt.xlabel(xlabel) 

plt.ylabel(ylabel) 





2? 


在 这 里 ， 我 们 使 用 简洁 的 Python 惯例 来 将 文件 头 解 包 〈unpack) 
成 3 个 变量 ， 当 使 用 ” ”作为 变量 名 时 ， 表 明 我 们 不 关心 那个 变量 的 


从 load_data 函 数 将 header 和 datarows 列 表 返 回 给 调用 端 main。 

通过 函数 format_data0 读 取 到 列表 中 的 每 一 个 元 素 ， 并 把 每 一 个 单 
独 的 实体 〈 年 份 、 温 度 和 海盗 数 ) 添加 到 与 该 实体 相关 的 ID 列表 。 

年 份 显 示 在 x 轴 上 上 ， 瘟 度 显 示 在 y 轴 上 。 海 盗 数 显示 为 一 幅 海 盗 船 的 
图 片 ， 同 时 为 了 提高 精度 ， 也 将 海盗 数量 显示 出 来 。 

用 标准 的 plot0 函 数 绘制 出 年 份 /温度 值 ， 除 了 把 线条 设置 得 宽 一 点 
(2 pt) 之 外 ， 没 有 再 添加 额外 的 效果 。 

然后 ， 为 每 一 个 值 添加 一 幅 海 盗 船 图片 来 说 明 给 定年 份 的 海盗 数 。 
对 此 ， 我 们 在 值 的 长 度 范 围 上 Crange(len(years))) 进行 循环 ， 在 每 一 个 





年 份 /温度 坐标 上 男 上 一 个 黑 点 : 

ax.plot(xy[0], xy[1], "ok") 

使 用 helper 函 数 read_png 把 船 的 图 片 从 文件 加 载 到 一 个 恰当 的 数组 
格式 : 

pirate = read_png(tall-ship.png) 

然后 ， 计 算出 缩放 系数 (zoomcj， 以 便 我 们 能 够 按照 当前 值 

(pirates[x]) 的 海盗 数 按 比 例 调整 图 像 大 小 ， 并 用 相同 的 系数 把 图 片 放 

置 在 图 表 中 合适 的 位 置 上 。 

然后 ， 实 际 的 图 片 在 OffsetImage 〈 带 有 与 其 父亲 AnnotationBbox 相 
关 位 置 的 图 像 容 器 ， 中 被 实例 化 。 

AnnotationBbox 是 一 个 像 注 解 一 样 的 类 ， 但 是 它 能 显示 其 他 的 
OffsetBox 实 例 ， 而 不 是 像 Axes.annotate 函 数 那样 只 显示 文本 。 这 人 允许 我 
们 在 注解 中 加 载 一 幅 图 像 或 者 文本 对 象 ， 并 把 它 放 置 在 与 数据 点 有 一 定 
距离 的 地 方 ， 也 可 以 使 用 箭头 功能 Carrowprops) 精确 地 指 回 一 个 被 注 
解 的 数据 点 。 

AnnotateBbox 构 造 函数 文 持 以 下 参数 。 

€ Imagebox: 必须 是 一 个 OffsetBox 实例 (例如 OffsetImage) ， 它 
是 注解 框 的 内 容 。 

€ xy: 与 注解 关联 的 数据 点 坐标 。 

€ xybox: 指 定 注 解 框 的 位 置 。 

€ xycoords: 指 定 xy 使 用 的 坐标 系统 〈 例 如 数据 坐标 ) 。 

€ ”boxcoords: 指 定 xybox 使 用 的 坐标 系统 (例如 距离 。xy 位 置 的 偏 
移 ) 。 

€ pad: 指 定 内 边 距 (padding) 的 数量 。 

€ airowprops: 用 于 绘制 注解 边框 与 数据 点 的 连接 箭头 的 属性 字典 。 

我 们 使 用 pirates 列表 中 的 相同 数据 项 向 这 个 图 形 添 加 文本 注解 ， 注 
解 的 相对 位 置 稍 微 有 些 不 同 。 第 二 个 AnnotationBbox 的 大 多 数 参 数 和 第 














一 个 相同 ， 我 们 调整 了 xybox 和 pad， 以 便 将 文本 放置 在 线条 的 另 一 边 。 
文本 在 TextArea 类 的 实例 中 ， 这 和 我 们 对 图 像 做 的 事情 相似 ， 但 是 这 里 
的 time.TextArea 文 本 和 OffsetImage 继 承 自 相同 的 父 类 OffsetBox。 

在 TextArea 实 例 中 设置 文本 为 no_pirates， 并 把 它 放 在 
AnnotationBbox 中 。 














本 节 将 演示 如 何 简 单 但 有 效 地 使 用 Python matplotlib 库 来 处 理 图 像 
通道 ， 并 显示 外 部 图 像 的 单 通 道 直方 图 。 


6.4.1 准备 工 


虽然 我 们 已 经 提供 了 一 些 样本 图 像 ， 但 是 假如 图 像 文 件 是 matplotlib 
的 imread 函 数 所 文 持 的 ， 那 么 就 可 以 用 我 们 的 代码 来 加 载 它 。 

本 节 将 学 习 如 何 组 合 不 同 的 matplotlib 图 形 来 实现 MIR 的 图 像 查 
看 器 的 功能 。 该 图 像 但 看 器 可 以 显示 红 、 绿 、 蓝 三 个 通道 的 图 像 直方 
图 。 





6.4.2 un +E oR 


为 了 演示 如 何 搭建 一 个 图 像 直 方 图 查看 器 ， 我 们 将 实现 一 个 简单 的 
ImageViewer 类 ， 该 类 包含 的 helper 方 法 的 操作 如 下 : 

1. 加 载 图 像 。 

2. 从 图 像 矩 阵 中 分 离 出 RGB 通道 。 

3. 配 置 图 表 和 坐标 轴 ( 子 区 ) 。 

4. 绘 制 通道 直方 图 。 

5. 绘 制图 像 。 

下 面 的 代码 演示 了 如 何 创 建 一 个 图 像 直 方 图 查看 器 。 

import matplotlib.pyplot as plt 











import matplotlib.image as mplimage 


import matplotlib as mpl 


import os 
class Image Viewer(object): 

def init (self, imfile): 
self. load. image(imfile) 
self. configure() 
self.figure = plt.gcf() 
t = "Image: {0}".format(os.path.basename(imfile)) 
self.figure.suptitle(t, fontsize=20) 
self.shape = (3, 2) 

def _configure(self): 
mpl.rcParams['font.size'] = 10 
mpl.rcParams['figure.autolayout'] = False 
mpl.rcParams['figure.figsize'] = (9, 6) 
mpl.rcParams['figure.subplot.top'] = .9 

def _load_image(self, imfile): 
self.im = mplimage.imread(imfile) 

@staticmethod 

def get chno(ch): 
chmap = {'R': 0, 'G': 1, 'B': 2} 
return chmap.get(ch, -1) 

def show_channel(self, ch): 
bins = 256 
ec = 'none' 
chno = self. get chno(ch) 
loc 7 (chno, 1) 
ax = plt.subplot2grid(self.shape, loc) 


ax.hist(self.im[:, :, chno].flatten(), bins, color=ch, ec=ec,\ 


label=ch, alpha=.7) 
ax.set_xlim(0, 255) 
plt.setp(ax.get xticklabels(), visible=True) 
plt.setp(ax.get yticklabels(), visible=False) 
plt.setp(ax.get xticklines(), visible=True) 
plt.setp(ax.get yticklines(), visible=False) 
plt.legend() 
plt.grid(True, axis-'y) 
return ax 

def show(self): 

loc 7 (0, 0) 
axim - plt.subplot2grid(self.shape, loc, rowspan-3) 
axim.imshow(self.im) 
plt.setp(axim.get xticklabels(), visible=False) 
plt.setp(axim.get yticklabels(), visible=False) 
plt.setp(axim.get xticklines(), visible=False) 
plt.setp(axim.get yticklines(), visible=False) 
axr = self.show_channel('R’) 
axg = self.show channel('G") 
axb = self.show  channel(' B? 


plt.show() 


Y Y 


if name =='_ main * 
im = 'images/yellow. flowers.jpg' 
try: 
iv = ImageViewer(im) 
iv.show() 


except Exception as ex: 


Print eX 


6.4.3 工作 原理 


从 代码 末尾 开始 谈 ， 我 们 看 到 有 硬 编码 的 文件 名 。 通 过 加 载 命 令 行 
参数 ， 使 用 sys.argv 列 表 把 给 定 的 参数 传 入 到 im 变量 中 ， 可 以 把 这 些 硬 
编码 的 文件 名 亚 换 挥 。 

我 们 实例 化 了 一 个 带 有 给 定 图 像 文 件 路 径 的 ImageViewer 类 对 象 。 
在 对 象 实例 化 期 间 ， 我 们 试 痢 把 图 像 加 载 到 一 个 数组 ， 通 过 rcParams 字 
典 配 置 图 表 ， 设 置 图 表 大 小 和 标题 ， 并 指定 对 象 的 方法 内 部 使 用 的 对 象 
字段 (self.shape) . 

这 里 主要 的 方法 是 show0， 它 创建 了 一 个 图 表 的 布局 ， 并 且 把 网 像 
数组 加 载 到 主子 区 《〈 左 列 ) 中 。 因 为 这 是 一 幅 真 实 的 图 像 ， 没 必要 使 用 
刻度 ， 因 此 隐藏 掉 了 所 有 的 刻度 和 刻度 标签 。 

然后 为 每 一 个 红 、 绿 和 赣 色 通道 调用 show_channel0 私 有 方法 。 这 
个 方法 在 右边 的 列 上 为 每 一 行 也 创建 了 新 的 子 区 坐标 轴 。 我 们 在 单独 的 
子 区 中 为 每 个 通道 绘制 直方 图 。 

此 外 ， 我 们 创建 一 个 小 图 形 ， 去 掉 了 不 必要 的 x 轴 刻 度 ， 并 添加 了 
一 个 图 例 ， 以 防 我 们 想 要 在 一 个 非 彩 色 环 境 下 绘制 这 个 图 表 。 因 此 ， 我 
们 可 以 在 这 些 环境 中 通过 图 例 分 辨 出 不 同 的 通道 。 

执行 完 代码 后 ， 将 得 到 如 图 6-2 所 示 的 屏 硕 截图 。 








Image: yellow_flowers.jpg 





6.4.4 4h FR wi B 


对 于 这 个 图 像 查 看 器 的 例子 ， 使 用 直方 图 图 表 类 型 仅仅 是 一 种 选 
择 。 我 们 可 以 使 用 matplotlib 文 持 的 任 一 种 图 表 类 型 。 另 一 个 现实 的 例子 
是 绘制 EEG 岂 或 者 类 似 的 医疗 记录 ， 在 这 种 情况 下 ， 我 们 可 能 想 要 把 切 
片 显 示 成 图 像 ， 把 所 记录 的 EEG 的 时 间 序 列 显 示 成 线形 图 ， 并 添加 关 
于 所 显示 数据 的 附加 元 数据 信息 ， 这 部 分 很 有 可 能 就 是 
matplotlib.text.Text artists 的 工作 了 。 

借助 于 matplotlib 与 用 户 GUI 事件 交互 的 能 力 ， 如 果 只 是 手动 地 缩放 
一 个 图 形 ，matplotlib 图 表 也 人 允许 我 们 在 想 要 放大 所 有 图 形 的 地 方 实现 交 














互 。 男 一 个 用 法 是 在 显示 一 幅 图 像 并 放大 的 同时 ， 在 当前 活跃 的 图 表 中 
也 放大 其 他 的 图 形 。 一 种 方法 是 使 用 motion ”notify_event 调 用 一 个 函数 
更 新 当前 图 表 中 的 所 有 坐标 轴 “〈 子 区 ) 的 x 轴 和 y 轴 范围 。 


6.5 Basemap 在 地 图 上 绘制 | 类 





或 许 最 好 的 地 理 空间 可 视 化 是 通过 把 数据 对 加 在 地 图 上 来 完成 的 。 
无 论 是 整个 地 球 、 一 个 大 洲 、 一 个 州 ， 甚 至 是 天 空 ， 这 是 让 观察 者 理解 
其 显示 的 数据 与 地 理 关 系 的 一 种 最 简单 的 方式 。 

本 节 将 学 习 如 何 使 用 matplotlib 的 Basemap 工 具 包 把 数据 添加 到 地 图 
des 





6.5.1 准备 工作 


既然 我 们 已 经 熟悉 了 如 何 把 matplotlib 用 作 绘 图 引擎 ， 可 以 继续 学 习 
matplotlib 其 他 工具 包 的 功能 ， 例 如 Basemap 地 图 工具 包 。 

Basemap 本 身 不 进行 任何 绘图 的 工作 ， 它 只 是 把 给 定 的 地 理 坐 标 转 
换 到 地 图 投影 ， 并 把 数据 传 给 matplotlib 进 行 绘图 。 

首先 ， 我 们 需要 安装 Basemap 工 具 包 。 如 果 你 正在 使 用 EPD， 那 么 
Basemap 已 经 被 安装 好 了 。 如 果 你 是 在 Linux 平 台 上 ， 最 好 使 用 原生 的 软 
件 包 管理 器 来 安装 包含 Basemap 的 软件 包 。 例 如 ， 在 Ubuntu 上 软件 包 为 
python-mpltoolkits.basemap， 能 通过 标准 的 包 管 理 恬 进行 安装 。 

$ sudo apt-get install python-mpltoolkits.basemap 

在 Mac OS X 上 ， 昌 然 使 用 流行 的 包 管 理 器 如 Homebrew, Fink 和 
pip 也 可 以 安装 ， 但 推荐 的 方式 是 使 用 EPD。 


0.5.2 un +E oR 





这 里 有 一 个 例子 ， 关 于 如 何 使 用 Basemap 工 具 包 在 指定 了 long、lat 
坐标 对 的 特定 区 域 绘制 简单 的 共 卡 托 投影 (Mercator projection) : 


1. 实 例 化 Basemap 对 象 ， 指 定 所 使 用 的 投影 (merc 指 Mercator) ; 

2. 分 别 为 地 图 的 左下 角 和 右上 角 指 定 经 度 和 纬度 (在 同一 个 
Basemap 构 造 函数 中 ) ; 

3. 创 建 Basemap 地 图 实例 来 绘制 海 尾 线 和 国家 ，; 

4. 创 建 Basemap 地 图 实例 来 填充 陆地 并 绘制 地 图 边界 ; 

5. 指 示 Basemap 地 图 实例 绘制 子午 线 和 平行 线 。 

下 面 的 代码 展示 了 如 何 使 用 Basemap 工 具 包 来 绘制 一 个 简单 的 墨 卡 
托 投影 。 


from mpl toolkits.basemap import Basemap 








import matplotlib.pyplot as plt 
import numpy as np 
map = Basemap(projection-'merc', 
resolution = 'h', 
area thresh = 0.1, 
llcrnrlon--126.619875, llcrnrlat-31.354158, 
urcrnrlon=-59.647219, urcrnrlat=47.517613) 
map.drawcoastlines() 
map.drawcountries() 
map.fillcontinents(color-'coral', lake color-'aqua'") 
map.drawmapboundary(fill color-'aqua'") 
map.drawmeridians(np.arange(0, 360, 30)) 
map.drawparallels(np.arange(-90, 90, 30)) 
plt.show() 
这 将 生成 地 球 的 一 个 可 识别 区 域 ， 如 图 6-3 所 示 。 





图 6-3 
既然 我 们 已经 知道 了 如 何 绘制 一 幅 地 图 ， 接 着 我 们 需要 知道 如 何在 
这 个 地 图 上 绘制 数据 。 如 果 我 们 还 记得 Basemap 是 一 个 大 的 转 码 器 ， 把 
经 度 和 纬度 对 转化 到 当前 地 图 投影 中 ， 那 么 就 明白 所 有 我 们 需要 的 是 一 
个 包含 long/lat 的 数据 集合 ， 并 把 它 传递 给 Basemap 用 来 投影 ， 然 后 用 
matplotlib 在 地 图 上 把 数据 绘制 出 来 。 我 们 从 cities.shp 和 cities.shx 文 件 加 
载 美国 城市 的 坐标 并 把 它们 投射 到 地 图 上 。 文 件 在 代码 库 的 chos 文件 
夹 下 ， 下 面 是 完成 这 项 工作 的 代码 。 
from mpl toolkits.basemap import Basemap 
import matplotlib.pyplot as plt 
import numpy as np 
map = Basemap(projection-'merc', 
resolution = 'h', 
area thresh = 100, 
Icrnrlon=-126.619875, Icrnrlat=25, 
urcrnrlon=-59.647219, urcrnrlat=55) 
shapeinfo = map.readshapefile('cities','cities") 
X, y = zip(*map.cities) 
# build a list of US cities 


city_names = [] 


for each in map.cities_info: 
if each COUNTRY | !='US': 
city names.append("") 
else: 
city names.append(each|'NAME']) 
map.drawcoastlines() 
map.drawcountries() 
map.fillcontinents(color-'coral', lake color-'aqua'") 
map.drawmapboundary(fill color-'aqua'") 
map.drawmeridians(np.arange(0, 360, 30)) 
map.drawparallels(np.arange(-90, 90, 30)) 
# draw city markers 
map.scatter(x,y,25, marker-'o',zorder-10) 
# plot labels at City coords. 
for city label, city x, city y in zip(city names, x, y): 
plt.text(city x, city y, city label) 
plt.title(‘Cities in USA") 
plt.show() 


6.5.3 工作 原理 


Basemap 用 法 的 基本 原理 是 ， 导 入 主要 的 模块 和 实例 化 一 个 带 有 期 
望 属性 的 Basemap 类 。 在 实例 化 阶段 必须 指定 所 使 用 的 投影 和 想 处 理 的 
地 球 区 域 。 

在 绘制 地 图 和 用 matplotlib.pyplot.show0O 显 示 绘 图 窗口 之 前 可 以 应 用 
额外 的 配置 。 

Basemap 支 持 很 多 (精确 地 说 是 32 个 ) 不 同 的 投影 。 其 中 大 多 数 应 





用 范围 非常 窄 ， 但 是 还 有 一 些 是 比较 通用 的 ， 被 应 用 在 大 多 数 和 常见 的 地 
图 可 视 化 中 。 
M 


通过 但 询 Basemap 模 块 ， 我 们 可 以 很 容易 地 知道 可 以 使 用 哪些 投 


In [5]: import mpl_toolkits.basemap 
In [6]: print mpl. toolkits.basemap. 
projections 


mbtfpq McBryde-Thomas Flat-Polar Quartic 


aeqd Azimuthal Equidistant 
sinu Sinusoidal 

poly Polyconic 

omerc Oblique Mercator 
gnom Gnomonic 

moll Mollweide 

Icc Lambert Conformal 
tmerc Transverse Mercator 


nplaea North-Polar Lambert Azimuthal 


gall Gall Stereographic Cylindrical 
North-Polar Azimuthal Equidistantnpaeqd 
mill Miller Cylindrical 

merc Mercator 

stere Stereographic 

eqdc Equidistant Conic 


cyl Cylindrical Equidistant 


npstere North-Polar Stereographic 


spstere South-Polar Stereographic 
hammer Hammer 

geos Geostationary 

nsper Near-Sided Perspective 

eck4 Eckert IV 

aea Albers Equal Area 

kav7 Kavrayskiy VII 

spaeqd South-Polar Azimuthal Equidistant 
ortho Orthographic 

cass Cassini-Soldner 

vandg van der Grinten 

laea Lambert Azimuthal Equal Area 


splaea South-Polar Lambert Azimuthal 





robin Robinson 
通常 ， 我 们 将 绘制 整个 投影 ， 如 果 没 有 特别 指定 ， 默 认 会 使 用 一 些 
合理 的 值 。 





在 放大 地 图 上 的 特定 区 域 时 ， 我 们 会 指定 要 显示 的 区 域 的 左下 角 和 
右上 角 的 经 度 和 纬度 。 对 于 这 个 例子 ， 我 们 使 用 墨 卡 托 投影 。 
al 
ee 


在 这 里 我 们 可 以 看 到 缩写 的 参数 名 字 的 描述 。 
¢ llcrnrlon: 左下 角 的 经 度 。 

€ llcrnrlat: 左下 角 的 纬度 。 

€ urcrnrion: 右上 角 的 经 度 。 

€ urcrnrlat: 右上 角 的 纬度 。 


6.5.4 补充 说 日 





我 们 仅仅 了 解 了 Basemap 工 具 包 功能 的 皮毛 ， 在 官方 文档 中 可 以 找 
到 更 多 的 例子 ， 地 址 为 
http://matplotlib.org/basemap/users/examples.html. 

官方 Basemap 文档 的 例子 使 用 的 大 多 数 数 据 位 于 远程 的 服务 右上 ， 
并 且 有 特定 的 格式 。 为 了 高 效 地 获取 这 些 数据 ， 可 以 使 用 NetCDF 数据 
格式 。NetCDF ”是 一 种 常见 的 数据 格式 ， 其 设计 之 初 考虑 了 网 络 的 效 
率 。 即 使 整个 数据 集合 非常 大 ， 它 也 允许 程序 获取 其 所 需 的 数据 ， 所 以 
使 用 这 种 格式 是 非常 实用 的 。 不 需要 在 每 次 需要 数据 和 每 次 数据 变化 
时 ， 下 载 海量 的 数据 集合 并 把 其 存储 在 本 地 。 




















在 本 节 中 ， 我 们 将 脱离 桌面 环境 来 演示 一 下 如 何 把 图 表 输 出 到 Web 
页 面 。 BA Web 前端 使 用 的 主要 语言 不 是 Python 而 是 HTML、CSS 和 
JavaScript， 但 是 仍然 可 以 用 Python 做 重要 的 工作 : 获取 数据 、 人 处 理 数 
据 、 执 行 密集 的 运算 ， 以 及 把 数据 泻 染 成 适用 于 Web 输 出 的 格式 ， 即 使 
用 要 求 的 JavaScript 版 本 创建 HTML 页 面 来 完成 可 视 化 工作 。 


6.6.1 准备 工作 








我 们 将 使 用 用 于 Python 的 Google 数据 可 视 化 库 来 为 前 台 界 面 准备 
数据 ， 并 使 用 另 一 个 Google 可 视 化 API 在 要 求 的 可 视 化 平台 ， 也 就 是 在 
HERMT rne RATE o 

开始 之 前 ， 需 要 安装 google-visuallization-python 模块 。 从 
https://code.google.com/p/google-visualization-python/downloads/detail? 
name=gviz_api_py-1.8.2.tar.g Zz&can=2&g= 下 载 最 新 的 稳定 版 本 ， 解 压 压 
缩 包 并 安装 模块 。 操 作 步 又 如 下 。 

$ tar xfv gviz_api_py-1.8.2.tar.gz 





$ cd gviz_api_py 

$ sudo python ./setup.py install 

在 Windows 和 Mac OS X 平台 上 需 使 用 合适 的 软件 解压 tar.gz 压 缩 
包 ， 其 他 步骤 相同 。 注 意 ， 为 了 在 系统 中 安装 这 个 模块 ， 我 们 必须 成 为 
超级 用 户 包 (也 就 是 获得 管理 员 权 限 )。 

如 果 不 想 污 染 你 的 操作 系统 包 ， 一 个 更 好 的 选择 是 可 以 仅 为 本 节 创 
建 一 个 virtualenv 环 境 来 安装 这 些 包 。 我 们 已 经 在 第 1 章 “ 准 备 你 的 工作 环 








境 ” 中 解释 了 如 何 处 理 virtualenv 环 境 。 

对 于 前 端 库 我 们 不 需要 安装 任何 东西 ， 因 为 这 些 库 会 在 web 页面 中 
直接 从 Google 服 务 器 上 加 载 。 

我 们 需要 为 本 节 激 活 网 络 访问 ， 因 为 输出 是 一 个 Web 页 面 ， 它 将 在 
一 个 浏览 器 中 打开 ， 直 接 从 远程 的 服务 器 获取 JavaScript 库 。 

本 节 将 学 习 如 何 结合 使 用 用 于 Python 的 Google 数 据 可 视 化 库 和 
JavaScript 来 创建 Web 可 视 化 页 面 。 


0.0.2 un 步骤 


下 述 代码 演示 了 如 何 使 用 Python 和 gdata_viz 模 块 从 一 个 CSV 文 件 加 
载 数据 ， 并 使 用 Google Geochart 和 Table Visualization 在 世界 地 图 上 可 
视 化 各 国 的 可 文 配 月 平均 工资 。 

1. 实 现 一 个 函数 用 作 模 板 生 成 器 。 

2. 使 用 csv 模 块 从 本 地 CSV 文 件 加 载 数据 。 

3. 使 用 DataTable 来 描述 数据 ， 并 使 用 LoadData 从 Python 字典 中 加 载 
数据 。 

4. 把 输出 泻 染 到 Web 页 面 。 

下 面 是 实现 代码 : 


import csv 





import gviz_api 
def get_page_template(): 
page template = """ 
<html> 
<script src="https://www.google.com/jsapi" type="text/javascript"> 
</script> 


<script> 


google.load('visualization’, '1', {packages:['geochart’,'table']}); 

google.setOnLoadCallback(draw Map); 

function drawMap() { 
var json_data = new google.visualization. DataTable(%s,0.6); 
var options = {colorAxis: (colors: ['#eee’, 'green']}}; 
var mymap = new google.visualization.GeoChart( 

document.getElementByld(‘map_div')); 
mymap.draw(json_data, options); 
var mytable = new google.visualization. Table( 
document.getElementByld(‘table_div')); 

mytable.draw(json_data, {showRowNumber: true}) 

} 

</script> 

<body> 

<H1>Median Monthly Disposable Salary World Countries</H1> 

«div id="map_div"></div> 

<hr /> 

<div id="table_div"></div> 

«div id="source"> 

<hr /> 

<small> 

Source: 

<a href="http://www.numbeo.com/cost-of-living/prices_by_ 

country.jsp? displayCurrency=EUR&itemId=105"> 
http://www.numbeo.com/cost-of-living/prices_by_country.jsp?dis 
play Currency=EUR&itemId=105 


</a> 


</small> 
</div> 
</body> 
</html> 
return page_template 
def main(): 
# Load data from CVS file 
afile = "median-dpi-countries.csv" 
datarows = [] 
with open(afile, 'r') as f: 
reader = csv.reader(f) 
reader.next() # skip header 
for row in reader: 
datarows.append(row) 
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# Describe data 
description = {"country": ("string", "Country", 
"dpi": ("number", "EUR"), } 
# Build list of dictionaries from loaded data 
data = [] 
for each in datarows: 
data.append({"country": each[0], 
"dpi": (float(each[1]), each[1])}) 
# Instantiate DataTable with structure defined in 'description' 
data_table = gviz_api.DataTable(description) 
# Load it into gviz_api.DataTable 


data_table.LoadData(data) 

# Creating a JSon string 

json = data_table.ToJSon(columns_order=("country", "dpi"), 
order_by="country", ) 

# Put JSON string into the template 

# and save to output.html 

with open('output.html', 'w') as out: 


out.write(get page template() 96 (json,)) 


Y Y 


if name --' main * 
main() 


ix BEAR E Routput.html L4, nf PAF 3L] S22 HJ Webixil Va zs FT 
开 它 。 页 面 看 上 如 图 6-4 所 示 。 


^ output.htmi 
5 Fle///F s : * 'output.html 


Median Monthly Disposable Salary World Countries 


E d 


“ny ae 
4 





6.6.3 工作 原理 


这 段 代 码 的 主 入 口 点 是 main() 函 数 。 前 先 ， 使 用 csv 模 块 加 载 数据 。 
我 们 可 以 从 公共 网 站 www.numbeo.com 获 得 该 数据 ， 并 把 它 存储 为 CSV 
格式 。 最 终 的 文件 可 以 从 代码 库 中 本 章 的 ch06 文 件 夹 中 获得 。 为 了 能 
使 用 Google 数 据 可 视 化 库 ， 我 们 需要 把 数据 描述 给 它 。 这 里 我 们 可 以 用 
Python 字典 描述 数据 ， 指 定 列 ID、 数 据 类 型 和 可 选 的 标签 。 在 接 下 来 的 
例子 中 数据 定义 成 以 下 格式 。 

{"name": ("data type", "Label")}: 





description = {"country": ("string", "Country"), 
"dpi": ("number", "EUR"), } 
然后 ， 需 要 把 加 载 的 CSV 数 据 行 映射 到 这 个 格式 上 。 我 们 将 在 data 
变量 中 创建 一 个 字典 的 列表 。 
现在 ， 我 们 具备 了 用 所 描述 的 数据 结构 的 gviz_data.DataTable 实 例 
化 data_table 的 所 有 内 容 。 接 下 来 ， 把 数据 加 载 到 其 中 并 以 JSON 格 式 输 
出 到 page_template 中 。 
get_page_template(O) 函 数 包 含 了 这 段 逻 辑 的 剩余 部 分 。 它 包含 了 生 
成 HTML 页 面 的 一 段 客户 端 ( 前 端 ) 代码 ， 以 及 从 Google 服务 器 加 载 
Google 数据 可 视 化 库 的 一 段 JavaScript 代码 。 加 载 Google 的 JavaScript 
API 的 代码 行 如 下 。 
<script src="https://www.google.com/jsapi" 
type="text/javascript" ></script> 
跟随 其 后 的 是 另 一 对 <script>.…</script> 标 签 ， 其 包含 了 一 个 额外 的 
设置 。 首 先 ， 我 们 加 载 Google 数 据 可 视 化 库 和 所 需 的 包 
table. 





geochart 和 





google.load(' visualization', '1', {packages:['geochart’,'table']}); 

然后 ， 我 们 设置 了 一 个 函数 ， 该 函数 在 页 面 加 载 时 会 被 调用 。 在 
Web 世 界 中 该 事件 被 注册 为 onLoad， 因 此 回调 函数 通过 
setOnLoadCallback 函 数 进行 设置 。 

google.setOnLoadCallback(drawMap); 

这 里 的 含义 是 : 当 页 面 加 载 时 ，google 实 例 将 调用 我 们 定义 的 自 定 
X. Ki žtdrawMap()> drawMaprK ad — 4 JSON^E 5 $ JH 33:8) Data TableS 
例 的 JavaScript 版 本 中 。 

var json_data = new google.visualization.DataTable(96s, 0.6); 

接 下 来 ， 在 ID 为 map_div 的 HTML 元 素 中 创建 了 一 个 geochart 实 例 。 


var mymap = new google.visualization.GeoChart( 





document.getElementByld(‘map_div')); 

用 json_data 绘 制 地 图 ， 并 且 提 供 自 定义 的 options。 

mymap.draw(json_data, options); 

类 似 地 ， 在 地 图 下 面 演 染 出 Google 的 JavaScript 表 。 

var mytable = new google.visualization. Table( 

document. getElementByld(‘table_div')); 

mytable.draw(json_data, {showRowNumber: true}) 

把 输出 保存 为 HTML 文 件 ， 这 样 就 可 以 在 浏览 器 中 打开 它 。 这 对 于 
一 个 Web 服务 的 动态 演 染 用 处 不 大 。 有 一 个 更 好 的 方式 是 ， 从 Python 代 
码 中 直接 输出 HTTP 应 答 ， 然 后 创建 一 个 后 人 台 服 务 来 啊 应 客户 端的 Web 
请 求 ， 返 回 客户 端 可 以 加 载 和 泻 染 的 JSON 数 据 : 


INS S. 


如 果 想 了 解 关 于 如 何 读 取 HTTP 应 答 的 知识 ， 请 登录 网 址 http://en. 
wikipedia.org/wiki/Hypertext_Transfer_Protocol#Response_message 阅读 更 
多 关于 HTTP 协 议和 应 答 消 息 的 内 容 。 

我 们 通过 把 ToJson0) 调 用 蔡 换 成 有 相同 签名 的 ToJsonResponse() 可 以 
做 到 这 一 点 。 这 个 调用 将 返回 一 个 包含 payload 〈 被 JavaScript 客 户 端 消 
费 的 JSON 化 的 data_table〉 的 HTTP 应 答 。 


6.6.4 t T H 





当然 ， 这 只 是 一 个 例子 ， 演 示 了 如 何 把 Python 作 为 一 种 后 台 语 言 ， 
在 服务 器 上 执行 数据 获取 和 处 理 的 工作 ， 同 时 把 前 台 的 工作 留 给 通用 的 
HTML/JavaScript/CSS 等 一 系列 语言 。 这 让 我 们 能 同 广 泛 的 受众 提供 可 
视 化 的 交互 式 和 动态 的 界面 ， 而 不 需要 他 们 安装 任何 东西 (好 吧 ， 除 了 
Web 浏 览 器 之 外 ， 但 是 这 通常 在 电脑 或 者 智能 手机 中 已 经 安装 了 ) 。 说 








到 这 里 ， 我 们 一 定 注 意 到 这 些 输出 的 质量 不 像 matplotlib 输 出 的 质量 那么 
高 ， 而 高 质量 的 输出 正 是 matplotlib 的 强项 。 

为 了 用 Web (和 Python) 做 更 多 的 工作 ， 必 须 学 习 更 多 关于 Web 的 
知识 和 其 使 用 的 语言 。 本 书 不 会 涵盖 这 些 内 容 ， 但 是 会 对 如 何 使 用 知名 
的 第 三 方 库 生 成 满意 的 Web 输 出 ， 同 时 尽 可 能 少 地 编写 Web 代 码 。 生 成 
一 个 可 能 的 解决 方案 ， 给 出 了 一 些 思路 。 

更 多 的 文档 可 以 从 Google 开发 者 门户 网 站 获得 ， 网 址 为 
https://developers. google.com/chart/interactive/docs/dev/gviz_api_lib. 





0.7 {CAPTCHA 


虽然 这 不 是 通常 所 指 的 严格 意义 上 的 数据 可 视 化 ， 但 是 用 Python 生 
成 图 像 的 能 力 在 很 多 情况 下 都 非常 有 用 ， 这 就 是 其 中 之 一 。 

本 节 将 介绍 如 何 生 成 用 来 区 分 人 类 和 电脑 的 随机 图 像 一 一 
CAPTCHABI 图 像 。 








6.7.1 准备 工作 


CAPTCHA 是 指 全 自动 区 分 计算 机 和 人 类 的 图 灵 测 试 (Completely 
Automated Public Turing test to tell Computers and Humans Apart) ， 由 卡 
耐 基 梅 隆 大 学 注册 商标 。 这 个 测试 被 用 来 挑战 自动 填充 各 种 Web 表单 
的 计算 机 程序 (通常 指 机 器 人 )〉 ， 这 些 表单 主要 是 针对 人 类 的 ， 不 应 该 
被 自动 化 。 常 见 的 例子 有 注册 表单 、 登 录 表 单 、 调 查 表 等 。 

CAPTCHA 本 里 可 以 有 很 多 形式 ,但 是 最 常见 的 形式 是 人 类 应 该 能 
够 读 取 一 幅 带 有 扭曲 的 字符 和 数字 的 图 像 ， 并 在 相应 的 字段 中 填 入 结 











本 节 将 学 习 如 何 利用 Python 的 岁 像 库 来 生成 图 像 、 演 染 点 和 线 ， 以 
BAER IA 


[ui 


6.7.2 un pU 


通过 执行 下 面 的 步骤 ， 我 们 将 演示 在 创建 一 个 简单 的 个 人 
CAPTCHA 生 成 器 时 所 涉及 的 内 容 。 

1. 设 置 图 像 大 小 、 文 本 、 字 体 大 小 、 背 景 闫 色 和 CAPTCHA 长 度 。 

2. 从 英文 字母 表 中 选取 随机 的 字符 。 


3. 用 指定 的 字体 和 颜色 在 图 像 中 把 这 些 字符 绘制 出 来 。 
4. 添 加 一 些 直线 和 弧 线 形式 的 噪声 

5. 把 CAPTCHA 和 图 像 对 象 返回 m 
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下 面 的 代码 演示 了 如 何 生成 简单 的 个 人 CAPTCHA 和 后 成 器 。 


from PIL import Image, ImageDraw, ImageFont 





import random 
import string 
class SimpleCaptchaException(Exception): 
pass 
class SimpleCaptcha(object): 
def init (self, length=5, size=(200, 100), fontsize=36, 
random_text=None, random_bgcolor=None): 
self.size = size 
self.text = "CAPTCHA" 
self.fontsize = fontsize 
self.bgcolor = 255 
self. length = length 
self.image = None # current captcha image 
if random_text: 
self.text = self. random text() 
if not self.text: 
raise SimpleCaptchaException(" Field text must not beempty.") 
if not self.size: 
raise SimpleCaptchaException(" Size must not be empty.") 
if not self.fontsize: 


raise SimpleCaptchaException(" Font size must be defined.") 


if random_bgcolor: 
self.bgcolor = self._random_color() 
def _center_coords(self, draw, font): 
width, height = draw.textsize(self.text, font) 
xy = (self.size[0] - width) / 2., (self.size[1] - height) / 2. 
return xy 
def add noise dots(self, draw): 
size = self.image.size 
for inrange(int(size[0] * size[1] * 0.1)): 
draw.point((random.randint(0, size[0]), 
random.randint(0, size[1])), 
fill-"white") 
return draw 
def add noise lines(self, draw): 
size = self.image.size 
for in range(8): 
width = random.randint(1, 2) 
start = (0, random.randint(0, size[1] - 1)) 
end = (size[0], random.randint(0, size[1] - 1)) 
draw.line([start, end], fill-"white", width=width) 
for in range(8): 
start = (-50, -50) 
end = (size[0] + 10, random.randint(0, size[1] + 10)) 
draw.arc(start + end, 0, 360, fill="Wwhite") 
return draw 
def get_captcha(self, size=None, text=None, bgcolor=None): 


if text is not None: 


self.text = text 
if size is not None: 
self.size = size 
if bgcolor is not None: 
self.bgcolor = bgcolor 
self.image = Image.new('RGB, self.size, self.bgcolor) 
# Note that the font file must be present 
# or point to your OS's system font 
# Ex. on Mac the path should be '/Library/Fonts/Tahoma.ttf' 
font = ImageFont.truetype( fonts/Vera.ttf', self.fontsize) 
draw = ImageDraw.Draw(self.image) 
Xy 7 self. center coords(draw, font) 
draw.text(xy=xy, text=self.text, font=font) 
# Add some dot noise 
draw = self._add_noise_dots(draw) 
# Add some random lines 
draw = self._add_noise_lines(draw) 
self.image.show() 
return self.image, self.text 
def _random_text(self): 
letters = string.ascii_lowercase + string.ascii_uppercase 
random text = "" 
for in range(self.length): 
random text += random.choice(letters) 
return random, text 
def random color(self): 


r = random.randint(0, 255) 


g = random.randint(0, 255) 
b = random.randint(0, 255) 
return (r, g, b) 


if name ==" main ": 
sc = SimpleCaptcha(length=7, fontsize=36, random_text=True, 


random_ bgcolor=True) 


sc.get_captcha() 


这 段 代 码 生 成 类 似 图 6-5 所 示 的 图 像 。 





6.7.3 LE fr 


这 个 例子 描述 了 如 何 使 用 Python 图 像 库 生 成 预定 义 图 像 ， 创 建 一 
个 简单 但 有 效 的 CAPTCHA 生 成 器 的 过 程 。 

我 们 把 功能 封装 到 一 个 类 SimpleCaptcha 中 ， 因 为 这 为 进一步 开发 提 
供 了 一 个 安全 的 空间 。 而 且 ， 我 们 创建 了 一 个 自 定义 的 
SimpleCaptchaException 类 来 容纳 将 来 的 异常 类 型 。 


如 果 你 不 是 在 写 小 段 的 粗制滥造 的 脚本 ， 而 是 开始 为 你 的 代码 域 编 
写 和 设计 自 定义 异常 类 型 ， 不 使 用 原生 的 Python 标 准 异 常 通常 是 件 好 
事 。 你 将 会 在 代码 可 读 性 和 软件 可 维护 性 上 获 益 不 少 。 

从 代码 尾部 的 main 函 数 代 码 段 开始 看 ， 我 们 把 要 生成 图 像 的 设置 作 
为 参数 传 给 构造 函数 ， 实 例 化 类 对 象 。 接 着 ， 在 sc 对 象 上 调用 
get_captcha 方 法 。 作 为 本 节 演 示 的 目的 ，get_captcha 显 示 图 像 对 象 作 为 
结果 ， 但 是 我 们 也 可 以 把 网 像 对 象 返回 给 这 个 方法 可 能 的 调用 者 以 供 其 
使 用 。 用 法 有 很 多 种 ， 调 用 者 可 以 把 图 像 存 储 到 文件 中 ; 或 者 如 果 是 一 
个 Web 应 用 ， 可 以 返回 图 像 流 并 把 结果 写 到 请 求 该 CAPTCHA 的 客户 
Üi o 

要 注意 的 一 件 重要 的 事情 是 ， 为 了 完成 CAPTCHA 测 试 的 挑战 一 应 
答 过 程 ， 必 须 返 回 在 图 像 上 生成 的 CAPTCHA 字 符 串 的 文本 ， 这 样 调用 
者 才 可 以 将 用 户 的 应 答 和 期 望 的 值 进行 比较 。 

如 果 用 户 提 供 了 上 自 定 义 值 ， 为 了 和 窗 盖 类 的 默认 值 ，get_captcha 方法 
首先 验证 输入 的 参数 。 之 后 ， 通 过 Image.new 实 例 化 一 个 新 的 图 像 对 
象 。 该 对 象 被 存储 到 self.image 中 ， 我 们 用 它 来 绘制 和 写 入 文本 。 在 把 文 
本 写 入 图 像 之 后 ， 我 们 添加 了 随机 放置 的 点 和 线 ， 以 及 一 些 弧 线段 的 噪 
[n 

这 些 工作 通过 _add_noise_points fll add noise lines 完成 。 第 一 个 函 
数 循环 地 把 一 个 点 添加 到 图 像 上 的 一 个 不 太 靠 近 图 像 边 缘 的 随机 位 置 ， 
第 二 个 函数 从 图 像 的 左手 边 同 图 像 的 右手 边 绘制 了 几 条 线段 。 




















6.7.4 补充 说 日 


我 们 基于 一 些 关 于 其 用 法 的 假设 创建 了 这 个 类 。 假 设 用 户 只 是 想 接 


受 默认 设置 〈 也 就 是 随机 背景 颜色 上 的 7 个 随机 字符 ) ， 然 后 从 其 得 到 
结果 。 这 是 我 们 在 构造 函数 上 放置 helper 函 数 来 设置 随机 文本 和 随机 背 
景 颜色 的 原因 。 如 果 最 常见 并 有 效 的 用 法 总 是 履 盖 默认 设置 ， 那 样 我 们 
就 会 想 着 把 这 些 操作 从 构造 函数 中 去 控 ， 并 放 到 一 个 单独 的 函数 调用 
"n. 
例如 ， 也 许 用 户 总 想 使 用 英文 单词 作为 CAPTCHA 挑 战 。 如 果 是 这 
种 情况 ， 我 们 会 希望 能 够 只 是 简单 地 调用 一 个 方法 就 可 以 提供 那样 的 结 
果 。 可 以 创建 一 个 get english captcha 方法 ， 其 中 包含 了 构造 函数 中 的 
随机 轴 辑 ， 然 后 从 给 定 的 英文 字典 中 挑选 随机 单词 。Unix ABE, 
在 /usr/share/dict/words 中 有 一 个 常用 的 瑞 文 字典 ， 我 们 可 以 用 它 来 完成 
这 件 事 。 代 人 码 如 下 。 
def get_english_captcha(self): 
words = "/usr/share/dict/words' 
with open(words, 'r') as wf: 
words = wf.readlines() 
aword = random.choice(words) 
aword = aword.strip() # remove newline and spaces 
return self.get_captcha(text=aword) 
总 的 来 说 ， 生 成 CAPTCHA 的 例子 没 达 到 产品 级 质量 ， 因 此 必须 在 
使 用 前 深 加 更 多 的 保护 和 随机 性 如 字符 旋转 。 
如 果 需 要 保护 你 的 web 表单 来 防止 机 器 人 的 攻击 ， 应 当 重 用 一 些 已 
有 的 第 三 方 Python 模块 和 库 。 甚 至 已 经 有 专门 为 现 有 的 Web 框 架 创建 的 
模块 。 
甚至 有 一 些 Web 服 务 ， 如 带 有 经 过 验证 的 Python 模块 recaptcha- 
client Chttps://pypi.python. org/pypi/recaptcha-client) 的 
reCAPTCHA Chttp://www.google.com/recaptcha) ， 注 册 之 后 束 可 以 使 用 
了 。 它 不 需要 任何 图 像 库 ， 因 为 图 像 直 接 从 reCAPTCHAWeb — 服务 获 








取 ， 但 是 它 有 其 他 一 些 依 赖 如 pycrypto。 通 过 使 用 这 个 Web 服 务 和 库 ， 
你 同时 也 在 为 使 用 通用 字符 识别 COCR) 技术 从 Google 图 书 项 目 或 者 旧 





版 纽约 时 报 的 图 书 扫描 工作 做 贡献 。 从 reCAPTCHA 网 站 你 可 以 获得 更 
多 内 容 。 
注释 
[1]. EEG: electroencephalo-graph, jjj FE, [€ 























本 章 将 学 习 以 下 内 容 。 

€ 理解 对 数 图 

e 理解 频谱 图 

€ 创建 火柴 杆 图 

€ 绘制 矢量 场 流 线 图 

€ 使 用 颜色 表 

€ 使 用 散 点 图 和 直方 图 

€ 绘制 两 个 变量 间 的 互相 关 图 形 
€ 自 相 关 的 重要 性 





在 本 章 中 ， 我 们 将 更 多 地 关注 用 我 们 展示 的 数据 来 理解 我 们 想 要 表 
达 什 么 ， 以 及 如 何 有 效 地 把 它 表 达 出 来 。 我 们 将 展示 一 些 新 的 技术 和 图 
表 ， 但 是 所 有 这 些 都 将 通过 对 我 们 想 要 传达 给 用 户 的 信息 的 理解 而 得 到 
增强 。 让 我 们 问 一 个 这 样 的 问题 , “为 什么 要 以 这 种 方式 展示 数据 ? ”这 
在 数据 探索 阶段 是 一 个 最 重要 的 问题 。 如 有 果 没 能 很 好 地 理解 数据 而 把 它 
以 菜 种 形式 展示 出 来 ， 那 么 坚 无 疑问 ， 读 者 将 无 法 正确 地 理解 这 些 数 
Pio 





7.2 理解 对 数 图 


通常 情况 下 ， 在 读 日 报 及 类 似 的 文章 时 ， 人 们 就 能 发 现 媒体 机 构 用 
图 表 阜 曲 了 事实 。 一 个 音 见 的 例子 是 用 线性 标 度 来 创建 所 谓 的 荡 居 图。 
图 表 中 有 一 个 在 很 长 一 段 时 间 《〈“ 知 干 年 ) 内 持续 增长 的 值 ， 其 起 始 值 要 
比 最 新 的 值 小 好 几 个 量 级 。 然 而 在 正确 的 可 视 化 时 ， 这 些 值 可 以 《并 且 
通常 应 该 ) 用 线形 图 或 者 近似 线性 的 图 表 表 示 ， 把 它们 要 强调 的 一 些 勾 
Bre scs HAZE Pa 








7.2.1 准备 工作 





使 用 对 数 标 度 时 ， 连 续 值 的 比例 是 音量 。 这 在 读 对 数 图 表 时 是 非常 
重要 的 。 使 用 线性 《算术 ) 标 度 时 ， 常 量 是 连续 值 之 间 的 距离 。 换 句 话 
说 ， 对 数 图 表 按 数量 级 顺序 有 一 个 币 量 的 距离 。 这 在 接 下 来 的 图 表 中 可 
以 看 到 ， 用 于 生成 图 表 的 代码 在 后 面 也 会 进行 解释 。 

根据 一 般 经 验 ， 遇 到 以 下 情况 应 该 使 用 对 数 标 度 。 

€ 当 要 展示 的 数据 的 值 跨越 好 几 个 量 级 时 。 

令 SARRERA MAAKE (一 些 数据 点 比 其 他 数据 大 很 多 ) 
的 倾斜 度 时 。 

€ 当 要 展示 变化 率 HKK) ， 而 不 是 值 的 变化 时 。 

不 要 盲目 地 遵循 这 些 规则 ， 它 们 更 像 是 指导 ， 而 不 是 规则 ， 要 始终 
依靠 你 目 己 对 于 手头 数据 和 项 目 ， 或 者 客户 对 你 提出 的 需求 作 判 断 。 

根据 数据 范围 的 不 同 ， 应 该 使 用 不 同 的 对 数 底 。 对 数 的 标准 砌 是 
10， 但 是 如 果 数 据 范 围 比 较 小 ， 以 2 为 底数 会 更 有 帮助 ， 因 为 其 会 在 一 
个 较 小 的 数据 范围 下 有 更 多 的 分 辨 率 。 























如 果 有 适合 在 对 数 标 度 上 显示 的 数据 范围 ， 我 们 会 注意 到 以 前 非常 
靠近 而 难以 判断 差异 的 值 现 在 很 好 地 分 离开 了 。 相 比 于 在 线性 标 度 下 展 
示 数 据 ， 对 数 展 示 让 我 们 读 起 图 来 更 容易 。 

对 于 收集 了 很 长 时 间 序 列 范围 的 数据 的 增长 紊 图 表 ， 我 们 想 看 的 不 
是 在 时 间 点 所 测量 的 绝对 值 ， 而 是 在 时 间 上 的 增长 。 我 们 仍 可 以 得 到 绝 
对 值 信息 ， 但 是 这 些 信息 有 较 低 的 优先 级 。 

而 且 ， 如 果 数 据 分 布 存 在 一 个 正 俩 态 ， 例 如 工资 ， 取 值 〈 工 资 ) 的 
对 数 能 让 数据 更 合乎 模型 ， 因 为 对 数 变 换 能 提供 一 个 更 加 正常 的 数据 分 
布 。 





7.2.2 un pu 





我 们 将 用 一 段 代 码 来 证 明 上 面 所 述 的 内 容 。 这 上段 代码 用 不 同 的 标 度 
(线性 和 对 数 ) 在 两 个 不 同 的 图 表 中 显示 了 两 个 相同 的 数据 集合 (一 个 
线性 的 ， 一 个 对 数 的 ) 。 

我 们 将 借助 后 面 的 代码 执行 下 面 的 步骤 。 

€ 生成 两 个 简单 的 数据 集合 : 指数 /对 数 y 和 线性 zo 

€ 创建 一 个 包含 四 个 子 区 的 图 形 。 

e 创建 两 个 包含 数据 集合 y 的 子 区 : 一 个 为 对 数 标 度 ， 一 个 为 线 
VERRE. 

€ 创建 两 个 包含 数据 集合 z 的 子 区 : 一 个 为 对 数 标 度 ， 一 个 为 线性 
标 度 。 

代码 如 下 : 

from matplotlib import pyplot as plt 





import numpy as np 
x = np.linspace(1, 10) 
y 7 [10 ** el for el in x] 


z = [2 * el for el in x] 

fig = plt.figure(figsize=(10, 8)) 

axl = fig.add_subplot(2, 2, 1) 

ax1.plot(x, y, color="blue’) 
ax1.set_yscale(‘log') 
ax1.set_title(r'Logarithmic plot of $ (10)^(x) $') 
ax1.set_ylabel(r'S (yj = {10}4{x} $') 
plt.grid(b=True, which-'both', axis='both’) 
ax2 = fig.add_subplot(2, 2, 2) 

ax2.plot(x, y, color="red’) 
ax2.set_yscale(‘linear’) 

ax2.set title(r'Linear plot of $ (10)^(x) $') 
ax2.set ylabel(r'$ (yj = {10}4{x} $) 
plt.grid(b=True, which-'both', axis-'both") 
ax3 = fig.add subplot(2, 2, 3) 

ax3.plot(x, z, color-'green') 
ax3.set_yscale(‘log') 
ax3.set_title(r'Logarithmic plot of $ {2}*{x} $ 
ax3.set ylabel(r'$ {y} = {2}*{x} $) 
plt.grid(b=True, which-'both', axis-'both") 
ax4 = fig.add subplot(2, 2, 4) 

ax4.plot(x, z, color-'magenta") 

ax4.set yscale(linear') 

ax4.set title(r'Linear plot of $ (2) *(x) $) 
ax4.set ylabel(r'$ {y} = {2}*{x} $') 
plt.grid(b=True, which-'both', axis-'both") 
代码 将 生成 如 图 7-1 所 示 的 图 表 。 
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7.2.3 工作 原理 





我 们 生成 了 一 些 样本 数据 和 两 个 相关 的 变量 : y 和 z。 变 量 y 被 表示 
为 x (数据 〉 的 指数 函数 ， 变 量 z 是 x 的 简单 线性 函数 。 这 帮助 我 们 展示 
了 线性 图 表 和 指数 图 表 的 不 同 。 

然后 ， 创 建 四 个 子 区 ， 上 面 一 行 子 区 是 关于 数据 GO y) I, Fill 

- 行 子 区 是 关于 数据 (x，z) 的 。 

从 左手 边 看 ，y 轴 列 为 对 数 标 度 ; 从 石 手 边 看 ，y 轴 列 为 线性 标 
度 。 通 过 set_yscale('log") 分 别 对 每 一 个 坐标 轴 进 行 设置 。 

我 们 为 每 一 个 子 区 设置 了 标题 和 标签 ， 其 中 标签 描述 了 所 绘制 的 函 
数 。 

通过 plt.grid(b=True，which=both'，axis="both)， 我 们 为 所 有 两 个 坐 
标 轴 和 主 次 刻度 打开 网 格 显示 。 

我 们 观察 到 ， 在 线性 图 表 中 线性 函数 是 直线 ， 在 对 数 图 表 中 对 数 函 














数 同样 也 是 直线 。 


7.3 理解 频谱 图 


频谱 图 是 一 个 随时 间 变 化 的 谱 表 现 ， 它 显示 了 信号 的 频谱 强度 随时 
间 的 变化 。 

频 说 图 是 把 声音 或 者 其 他 信号 的 频谱 以 可 视 化 的 方式 呈现 出 来 。 它 
被 用 在 很 多 科学 领域 中 ， 从 声音 指纹 如 声音 识别 ， 到 雷达 工程 学 和 地 震 

通常 ， 频 谱 图 的 布局 如 下 : x 轴 表示 时 间 ，y 轴 表示 频率 ， 第 三 个 维 
度 是 频率 一 时 间 对 的 幅 值 ， 通 过 颜色 表示 。 因 为 这 是 三 维 的 数据 ， 因 此 
我 们 也 可 以 创建 3D 图 表 来 表示 ， 其 中 强度 表示 为 z 轴 上 的 高 度 。3D 图 
表 的 问题 是 人 们 不 太 容 易 理 解 以 及 进行 比较 ， 而 且 比 2D 图 表 占 用 更 多 
的 空间 。 


7.3.1 准备 工作 


对 于 严 齐 的 信号 处 理 ， 我 们 将 会 研究 更 低级 别 的 细节 ， 进 而 能 从 中 
发 现 模式 以 及 自动 识别 一 定 的 特征 ;但 是 对 于 本 节 数 据 可 视 化 的 内 容 ， 
我 们 将 借助 一 些 彰 名 的 Python 库 来 读 取 一 个 音频 文件 ， 对 它 进 行 采样 ， 
然后 绘制 出 频谱 图 。 

为 了 能 读 取 WAV 文件 并 把 声音 可 视 化 出 来 ， 需 要 做 一 些 准备 工 
作 。 我 们 需要 安装 libsndfilel 系统 库 来 读 / 写 音频 文件 。 这 可 以 通过 你 喜 
欢 的 包 管 理工 具 完 成 。 对 于 Ubuntu， 使 用 以 下 命令 。 

$ sudo apt-get install libasound1-dev 

安装 dev 包 非常 重要 ， 它 包含 了 头 文 件 ， 从 而 使 pip 可 以 创建 
scikits.audiolab 模 块 。 











我 们 也 可 以 安装 libasound 和 ALSA (Advanced Linux Sound 
Architecture， 高 级 Linux 声 音 体 系 ) 头 来 避免 编译 时 警告 。 这 是 可 选 
的 ， 因 为 我 们 不 打算 使 用 ALSA 库 提供 的 特性 。 对 于 Ubuntu Linux， 执 
行 以 下 命令 : 

$ sudo apt-get install libasound2-dev 

我 们 用 pip 安 装 用 来 读 取 WAV 文 件 的 scikits.audiolab: 

$ pip install scikits.audiolab 


? 


永远 记 住 要 进入 当前 工程 的 虚拟 环境 ， 因 为 这 样 才 不 会 弄 脏 你 的 系 
统 库 。 


7.3.2 un Ip 


本 节 将 使 用 预 录制 的 声音 文件 testwav， 该 文件 可 以 在 本 书 的 文件 
代码 库 中 找到 ， 但 也 可 以 自己 生成 一 个 样本 文件 。 

在 这 个 例子 中 ， 我 们 顺序 地 执行 下 面 的 步骤 。 

1. 读 取 包 含 一 个 已 经 录制 的 声音 样本 的 WAV 文 件 。 

2. 通 过 NFFT 设 置 用 于 健 里 叶 变 换 的 窗口 长 度 。 

3. 在 采样 时 ， 使 用 noverlap 设 置 重 且 的 数据 点 。 


import os 





from math import floor, log 

from scikits.audiolab import Sndfile 
import numpy as np 

from matplotlib import pyplot as plt 

# Load the sound file in Sndfile instance 


soundfile = Sndfile("test.wav") 


# define start/stop seconds and compute start/stop frames 

start_sec = 0 

stop sec = 5 

start frame - start sec * soundfile.samplerate 

stop frame - stop sec * soundfile.samplerate 

# go to the start frame of the sound object 

soundfile.seek(start frame) 

# read number of frames from start to stop 

delta frames = stop. frame - start. frame 

sample - soundfile.read frames(delta frames) 

map - CMRmap' 

fig = plt.figure(figsize=(10, 6), ) 

ax = fig.add subplot(111) 

# define number of data points for FT 

NFFT - 128 

# define number of data points to overlap for each block 

noverlap = 65 

pxx, freq, t, cax = ax.specgram(sample, Fs-soundfile.samplerate, 
NFFT=NFFT, noverlap=noverlap, 
cmap=plt.get_cmap(map)) 

plt.colorbar(cax) 

plt.xlabel(" Times [sec]") 

plt.ylabel("Frequency [Hz]") 

plt.show() 

代码 生成 的 频谱 图 如 图 7-2 所 示 。 
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NFFT 定 义 了 每 一 个 块 中 用 于 计算 离散 传 里 叶 变 换 的 数据 点 的 数 
。 当 NFFT 的 值 为 2 的 贤 次 方 时 计算 起 来 效率 最 品 。 窗 口 可 以 重合 ， 重 
(也 就 是 重复 ) 的 数据 点数 量 通 过 参数 noverlap 指 定 。 


7.3.3 工作 原理 











D 二 


首先 需要 加 载 一 个 声音 文件 ， 这 通过 调用 scikits.audiolab.SndFile 77 
法 并 传 入 一 个 文件 名 来 完成 。 该 方法 将 实例 化 一 个 声音 对 象 ， 通 过 该 对 
象 可 以 查询 数据 以 及 调用 其 上 的 方法 。 

为 了 读 取 频谱 图 需要 的 数据 ， 需 要 从 声音 对 象 中 读 取 上 所 需 的 数据 
帧 。 这 通过 read_frames0O 完 成 ， 访 方法 接收 开始 帧 和 结束 帧 的 参数 。 把 











采样 率 和 想 要 可 视 化 的 时 间 点 (start, end) 相 乘 可 以 计算 出 帧 数量 。 
7.3.4 补充 说 明 


如 采 找 不 到 音频 文件 《wave) ， 你 可 以 很 容易 地 生成 一 个 。 生 成 方 
iE. 
import numpy 
def get maskt(t, t1, t2, Ivl. pos, lvl. neg): 
if t1 >= t2: 
raise ValueError("t1 must be less than t2") 
return numpy.where(numpy.logical and(t > t1, t < t2), lvl pos, 
lvl neg) 
def generate signal(t): 
sinl = numpy.sin(2 * numpy.pi * 100 * t) 
sin2 = 2 * numpy.sin(2 * numpy.pi * 200 * t) 
# add interval of high pitched signal 
sin2 = sin2 * get mask (t,2,5,1.0,0.0) 
noise = 0.02 * numpy.random.randn(len(t)) 
final signal = sin1 + sin2 + noise 
return final signal 


Y 


| main -* 


Y 


if name == 
step = 0.001 
sampling freq-1000 
t - numpy.arange(0.0, 20.0, step) 
y 7 generate signal(t) 
# we can visualize this now 


# in time 


axl = plt.subplot(211) 

plt.plot(t, y) 

# and in frequency 

plt.subplot(212) 

plt.specgram(y, NFFT=1024, noverlap=900, 

Fs-sampling freq, cmap=plt.cm.gist_heat) 
plt.show() 
这 将 生成 如 图 7-3 所 示 的 信号 ， 其 中 顶部 的 图 形 是 生成 的 信号 。 这 

里 ，x 轴 表示 时 间 ，y 轴 表示 信号 的 幅 值 。 捕 部 的 图 形 是 相同 的 信号 在 频 
率 域 中 的 呈现 。 这 里 ，x 轴 如 顶部 图 一 样 表示 时 间 《 通 过 选择 采样 率 来 
匹配 时 间 ) ，y 轴 表示 信和 号 的 频率 。 














图 7-3 


7.4 创建 火柴 杆 图 


一 个 二 维 的 火柴 杆 图 (stem plot) 把 数据 显示 为 沿 x 轴 的 基线 延伸 
的 线条 。 (默认 值 ) 或 者 其 他 标记 表示 每 个 杆 的 结束 ， 其 y 轴 表示 
了 数据 值 。 

A TERES] eue A SAF AL 

PEPEK ERI ETE FQ (stem and leaf plot) WA, AltA etx 
不 重要 的 数值 表示 为 上 叶 ， 把 较 高 位 的 值 表示 为 茎 的 一 种 数据 表现 方法 ， 
如 图 7-4 所 示 。 





7.4.1 准备 工作 


我 们 想 使 用 一 个 离散 值 序列 来 绘制 火 荣 杆 图 ， 普 通 的 线性 图 表 无 法 


用 来 展示 这 种 离散 的 数据 。 
绘制 离散 序列 为 杆 ， 数 据 值 表示 为 每 个 杆 来 端的 标记 。 杆 从 基线 
“通常 在 y=0 处 ) 延伸 到 数据 点 的 值 。 


7.4.2 un 步骤 


我 们 将 使 用 matplotlib 的 stem0 函 数 绘制 火 某 杆 图 。 这 个 函数 可 以 只 
使 用 一 系列 的 y 值 ，x 值 为 生成 的 一 个 从 0 到 len(y)-1 的 简单 序列 。 如 果 把 
x 和 y 序 列 都 提供 给 stem() 疯 数 ， 该 函数 会 把 它们 都 用 于 两 个 坐标 轴 。 

我 们 要 为 火 烷 杆 图 配置 下 面 的 一 些 格式 器 。 

€ linefmt: 这 是 杆 线 的 线条 格式 器 。 

€ markerfmt: 火 荣 杆 线条 末端 的 标记 用 该 参数 格式 化 。 

€ basefmt: 规定 基线 的 外 观 。 

€ label: 设置 火柴 杆 图 图 例 的 标签 。 

€ hold: 把 所 有 当前 图 形 放 在 当前 坐标 轴 上 。 

€ bottom: Æ y 轴 方 同 设置 基线 位 置 ， 默 认 值 为 0。 

参数 hold ”被 用 作 图 表 的 一 个 常见 的 特性 。 如 果 它 是 打开 状态 

(True) ， 接 下 来 的 所 有 图 表 都 会 被 添加 到 当前 坐标 轴 上 。 人 否则 ， 每 一 

个 图 形 会 创建 新 的 图 表 和 坐标 轴 。 

执行 下 面 的 步骤 来 创建 一 个 火 荣 杆 网 。 

1. 生 成 随机 噪声 数据 。 

2. 设 置 火 柴 杆 参数 。 

3.27 ill KARAT e 

下 面 是 相应 的 代码 。 

import matplotlib.pyplot as plt 








import numpy as np 


# time domain in which we sample 


x = np.linspace(0, 20, 50) 

# random function to simulate sampled signal 

y = np.sin(x + 1) + np.cos(x ** 2) 

# here we can setup baseline position 

bottom = -0.1 

# True -- hold current axes for further plotting 

# False -- opposite. clear and use new figure/plot 

hold = False 

# set label for legend. 

label = "delta" 

markerline, stemlines, baseline = plt.stem(x, y, bottom=bottom, 
label=label, hold=hold) 

# we use setp() here to setup 

# multiple properties of lines generated by stem() 

plt.setp(markerline, color='red', marker-'o") 

plt.setp(stemlines, color="blue’, linestyle=':') 

plt.setp(baseline, color-'grey', linewidth=2, linestyle='-') 

# draw a legend 

plt.legend() 

plt.show() 

以 上 代码 生成 的 图 形 如 图 7-5 所 示 。 





7.4.3 LIFE 


首先 我 们 需要 一 些 数据 。 对 于 本 节 来 说 ， 生 成 的 伪 采 样 信号 已 经 够 
用 了 。 在 真实 世界 里 ， 任 何 离散 序列 数据 都 可 以 恰当 地 用 火柴 杆 图 来 可 
视 化 。 我 们 用 Numpy 的 numpy.linspace、numpy.cos 和 numpy.sin 函 数 生 
成 该 信和 号。 

然后 ， 设 置 火柴 杆 图 的 标签 和 基线 的 位 置 ， 基 线 位 置 的 默认 值 为 
0.0。 

如 果 想 要 绘制 多 个 火 崇 杆 图 ， 可 以 设置 hold 的 值 为 Trmme， 这 样 所 有 
火柴 杆 图 将 会 被 演 染 在 相同 的 坐标 轴 中 。 





调用 matplotlib.stem 返 回 三 个 对 象 。 第 一 个 是 markerline， 是 一 1 
Line2D 的 实例 ， 保 存 了 表示 火 烷 杆 本 里 的 线条 的 引用 。 它 仅仅 洽 染 了 标 
记 ， 不 包括 连接 标记 的 线条 。 可 以 通过 编辑 该 Line2D 实 例 的 属性 让 线条 
可 见 ， 操 作 步 又 会 在 后 面 解释 。 最 后 一 个 对 象 baseline 也 是 一 个 Line2D 
实例 ， 保 存 了 表示 stemlines 原点 的 水 平 线条 的 引用 。 返 回 的 第 二 个 对 
象 是 stemlines， 当 然 束 是 表示 茎 线 的 Line2D 实 例 的 集合 (目前 是 Python 
列表 ) 。 

通过 setp 函 数 把 属性 应 用 到 这 些 对 象 或 这 些 对 象 集合 的 所 有 的 线条 
(Line2D 实 例 ) 上 ， 我 们 用 这 些 返 回 的 对 象 来 处 理 火 柴 杆 图 的 可 视 化 需 
求 。 

你 可 以 尝试 一 些 设 置 ， 来 理解 setp 是 怎样 改变 图 形 风 格 的 。 





7.5 绘制 矢量 场 流 线 

流 线 图 被 用 来 可 视 化 矢量 场 的 流 态 。 科 学 和 自然 学 科 上 的 一 些 例子 
包括 磁场 、 万 有 引力 和 流体 运动 。 

矢量 场 可 以 通过 为 每 个 点 指定 一 个 线条 和 一 个 或 多 个 箭头 的 方式 可 
视 化 出 来 。 强 度 可 以 用 线条 长 度 表 示 ， 方 向 由 指向 特定 方向 的 箭头 表 
示 。 

通常 ， 力 的 强度 用 特定 流 线 的 长 度 显示 ， 但 是 有 时 也 可 以 用 流 线 的 
密度 来 表示 。 











7.5.1 准备 工作 


用 matplotlib 的 matplotlib.pyplot.streamplot 函 数 来 可 视 化 矢量 场 。 该 
函数 通过 在 流 场 中 均匀 地 填充 流 线 来 创建 图 形 。 最 初 该 函数 是 用 来 可 视 
化 风 模 型 或 者 液体 流动 的 ， 因 此 ， 我 们 不 需要 严格 的 矢量 线条 ， 而 是 需 
要 一 个 矢量 场 的 统一 表现 形式 。 

该 函数 最 重要 的 参数 是 CX. YO ， 是 一 维 Numpy 数组 的 等 距 网 
E. (U, VO 参数 匹配 的 是 CX, YO 速率 的 二 维 Numpy 数 组 。U 和 V 
和 矩阵 在 维度 上 的 行 数 必 须 等 于 Y 的 长 度 ， 列 的 数量 必须 匹配 X 的 长 度 。 

流 线 图 的 线条 宽度 可 以 单独 控制 ， 如 果 linewidth 参数 是 一 个 二 维 
数组 ， 将 匹配 ”uu 和 Vv 速率 的 形状 ， 或 者 可 以 是 所 有 线条 都 可 以 接受 的 一 
个 简单 的 整数 。 

同样 ， 颜 色 可 以 是 对 于 所 有 流 线 的 一 个 值 ， 或 者 像 linewidth 参 数 一 
样 形状 的 一 个 矩阵 。 

Hk (FancyArrowPatch 类 ) 用 来 表示 矢量 方向 ， 可 以 通过 两 个 参 











数控 制 它 们 。arrowsize 改 变 箭头 的 大 小 ，arrowstyle 改 变 箭头 的 格式 《〈 例 


lll*simple", *-»"...) . 
7.5.2 Pe VEE HB 
我 们 从 一 个 简单 的 例子 开始 ， 来 了 解 一 下 流 线 图 ， 执 行 下 面 的 步 


1. 创 建 天 量 数据 。 

2. 打 印 中 间 值 。 

3. 绘 制 流 线 图 。 

4. 显 示 用 来 可 视 化 天 量 的 流 线 的 图 形 。 
下 面 是 示例 代码 。 

import matplotlib.pyplot as plt 

import numpy as np 

Y, X = np.mgrid[0:5:100j, 0:5:100j] 
U-X 

V=Y 

from pprint import pprint 

print "X" 

pprint(X) 

print "Y" 

pprint(Y) 

plt.streamplot(X, Y, U, V) 

plt.show() 

上 述 代码 会 输出 以 下 文本 信息 。 

X 

array([[ 0. , 0.05050505, 0.1010101,..., 4.8989899 , 


4.94949495, 5. ] 


[ 0. , 0.05050505, 0.1010101,.., 4.8989899, 
4.94949495, 5. ], 
[ 0. , 0.05050505， 0.1010101,.., 4.8989899 , 


4.94949495, 5. b 


e009 


[0. , 0.05050505, 0.1010101,..., 4.8989899 , 
4.94949495, 5. ], 
[ 0. , 0.05050505， 0.1010101,..., 4.8989899 , 
4.94949495, 5. ], 
[ 0. , 0.05050505， 0.1010101,..., 4.8989899 , 
4.94949495, 5. 1D 

Y 

array([[ 0. , 0. , 0. esque. 0, : 


0 ，0. | 

[0.05050505, 0.05050505, 0.05050505, ..., 0.05050505， 
0.05050505, 0.05050505], 

[0.1010101, 0.1010101, 0.1010101,..., 0.1010101, 
0.1010101, 0.1010101 ], 

[4.8989899, 4.8989899, 4.8989899,.., 4.8989899, 
4.8989899 , 4.8989899 ], 

[ 4.94949495, 4.94949495, 4.94949495, ..., 4.94949495, 
4.94949495, 4.94949495], 

por Gs og Be ete EOS 

5. , 5 WD 

生成 的 法 线 图 图 表 如 图 7-6 所 示 。 





7.5.3 .L 1E se 


使 用 Numpy 的 mgrid 实 例 ， 通 过 检索 二 维 的 网 状 机 格 ， 我 们 创建 了 X 
和 Y 的 矢量 场 。 指 定 网 格 的 范围 作为 起 点 和 终点 (相应 的 为 -2 和 2)〉 。 第 
三 个 索引 表示 步 长 。 步 长 表示 的 是 起 点 和 终点 之 间 包 含 的 点 的 数量 。 如 
果 想 要 包含 终点 值 ， 可 以 使 用 一 个 复数 作为 步 长 ， 其 中 幅 值 用 于 起 点 和 
终点 之 间 需 要 的 点 数量 ， 终 点 包含 在 内 。 

然后 ， 如 上 填充 的 网 状 栅 格 被 用 于 计算 矢量 的 速率 。 这 里 ， 为 了 未 
例 的 原因 ， 我 们 就 简单 地 使 用 相同 的 meshgrid 属 性 作为 天 量 速 率 。 这 将 
生成 一 个 图 形 ， 该 图 形 清晰 地 显示 了 矢量 场 的 线性 依赖 和 流 。 














改变 一 下 UM Vv 的 值 ， 体 会 一 下 U 和 V 的 值 是 如 何 影响 流 线 图 
的 。 例 如 ， 让 U =np.sin(X) 或 者 V = sin(Y)。 然 后 ， 可 以 尝试 改变 起 点 和 
终点 的 值 。 图 7-7 是 U =np.sin(X) 的 图 形 。 





图 7-7 
要 清楚 该 图 表 是 生成 的 线条 和 第 头 补 片 的 集合 ， 因 此 没有 办 法 (至 





少 现在 ) 更 新 现 有 的 图 形 ， 因 为 线条 和 箭头 对 于 矢量 和 场 一 无 所 知 。 将 
来 的 实现 可 能 会 包含 它 ， 但 是 目前 这 是 matplotlib 现 有 版 本 的 一 个 公认 的 
局 限 。 


7.5.4 补充 说 


当然 ， 这 个 例子 只 是 给 我 们 一 个 机 会 来 知道 并 理解 matplotlib 的 流 线 


图 特性 和 能 

当 你 手头 有 真正 的 数据 时 就 会 体现 其 真正 的 威力 。 理 解 了 本 节 内 容 
后 ， 你 就 能 知道 你 所 拥有 的 工具 是 什么 ， 这 样 当 给 你 数据 并 且 了 解 了 它 
所 属 的 领域 时 ， 你 就 能 够 选用 最 适合 的 工具 来 完成 工作 。 














7.6 Zl 


用 颜色 来 编码 数据 会 极 大 地 影响 观察 者 如 何 理解 可 视 化 图 形 ， 因 为 
观察 者 们 会 对 颜色 和 颜色 要 表达 的 信息 做 一 定 的 假设 。 

坦 日 来 讲 ， 如 果 用 颜色 向 数据 添加 额外 的 信息 ， 这 终归 是 件 好 事 。 
最 好 也 要 知道 何 时 以 及 如 何在 你 的 可 视 化 中 使 用 颜色 。 


7.6.1 准备 工作 








如 果 你 的 数据 不 是 天 然 用 颜色 标示 的 (如 地 形 / 地 势 海拔 或 者 物体 
的 温度 〉， 最 好 不 要 人 为 的 把 它 映射 到 自然 色 上 。 我 们 想 要 恰当 地 理解 
数据 ， 因 此 选择 一 种 能 帮助 读者 容易 地 理解 数据 的 颜色。 如 果 展 示 与 开 
开 温 展 或 摄氏 温度 无 关 的 财务 数据 ， 那 么 我 们 不 希望 读者 不 断 地 把 数据 
映射 到 表示 温度 的 闫 色 上 去 。 

如 果 数 据 没 有 与 红色 /绿色 有 很 强 的 关联 时 ， 要 尽 可 能 地 避免 使 用 
这 两 种 颜色 。 

为 了 帮助 读者 选择 合适 的 颜色 映射 ， 我 们 将 解释 matplotlib 包 中 已 
有 的 一 些 颜 色 表 ， 如 果 你 知道 它们 是 用 来 做 什么 的 以 及 怎么 找到 它们 ， 
可 以 帮助 你 并 节省 很 多 的 时 间 。 

颜色 表 一 般 可 以 归 为 以 下 几 类 。 

@ Sequential: 这 表示 同一 颜色 从 低 饱 和 上 度 到 高 饱和 上 度 的 两 个 色调 
的 单 色 颜色 表 ， 例 如 从 白色 到 天 赣 色 。 对 大 多 数 情况 来 说 这 是 理想 的 ， 
因为 这 些 颜 色 清 晰 地 显示 了 颜色 值 从 低 到 高 的 变化 。 

@ Diverging: 这 表示 中 间 值 ， 是 颜色 的 中 值 ( 通 第 是 一 些 明 腕 的 
PE) ， 然 后 磊 色 范围 在 高 和 低 两 个 方 辐 上 变化 到 两 个 不 同 的 色调 。 这 


对 于 有 明显 中 值 的 数据 是 理想 的 。 例 如 ， 当 中 值 是 0 时 ， 能 清晰 地 显示 
负 值 和 正 值 之 间 的 区 别 。 

令 Qualitative: 对 于 数据 没有 固定 的 顺序 ， 并 且 想 要 让 不 同 种 类 的 
数据 之 间 能 轻易 地 区 分 开 的 情况 ， 可 以 选用 该 颜色 表 。 

€ Cyclic: 当 数 据 可 以 围绕 端点 值 显示 的 时 候 ， 用 该 颜色 表 非 常 方 
便 ， 例 如 表示 一 天 的 时 间 、 风 辣 或 者 相位 角 。 

matplotlib 自 带 许多 预定 义 的 颜色 表 ， 我 们 可 以 把 它们 划分 为 几 类 。 
我 们 会 为 何 时 使 用 何 种 颜色 表 给 出 一 些 建 议 。 最 基本 且 常 用 的 颜色 表 有 


autumn. bone. cool. copper. flag. gray. hot. hsv. jet. pink, 








prism. sprint, summer, winter#lspectral. 
在 Yorick 科 学 可 视 化 包 中 还 有 其 他 一 些 颜 色 表 。 这 是 从 GIST 包 演变 
而 来 的 ， 因 此 在 该 集合 中 的 所 有 颜色 表 名 字 中 都 有 一 个 gist_ 前 级 。 
? 


Yorick 科 学 可 视 化 包 也 是 一 个 由 C 编 写 的 解释 型 语言 ， 最 近 不 是 非 
生活 跃 。 可 以 在 其 官网 http:/yorick.sourceforge.netindex.php 得 到 更 多 的 
信息 。 

这 些 颜 色 表 集合 包括 以 下 表 :，gist_earth、gist_heat、gist_ncar、 
gist_rainbow 和 gist_stern。 

下 面 介绍 基于 ColorBrewer Chttp://colorbrewer.org) 的 颜色 表 ， 可 以 
把 它们 分 为 以 下 几 类 。 

€ Diverging: 中 间 亮 度 最 高 ， 回 两 端 递减 。 

€ Sequential: 亮度 单调 地 递减 。 

€ Qualitative: 不 同 种 类 的 颜色 用 来 区 分 不 同 的 数据 类 别 。 

另外 还 有 一 些 可 用 的 颜色 表 如 表 7-1 所 示 。 

表 7-1 
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brg 这 表示 一 个 发 散 型 的 蓝 一 红 一 绿 颜 色 表 

bwr 这 表示 一 个 发 散 型 的 蓝 一 白 一 红颜 色 表 

coolwarm 对 于 3D 阴影 ， 色 盲 和 颜色 排序 非常 有 用 

rainbow 表示 一 个 有 发 散 亮 度 的 紫 一 蓝 一 绿 一 黄 一 检 一 红 光 谱 颜 色 表 

seismic 表示 一 个 发 散 型 蓝 一 白 一 红颜 色 表 

terrain Ae A I BE, CH. AR. v*. ERMA) ， 最 初 来 自 IGOR Pro 软件 


这 里 展示 的 大 多 数 颜 色 表 可 以 通过 在 颜色 表 名 字 后 面 加 上 _r 后 级 进 
行 反 转 ， 例 如 hot_r 是 反 向 循环 的 hot 闫 色 表 。 


7.6.2 un 步骤 





在 matplotlib 中 可 以 为 许多 项 目 设置 颜色 表 。 例 如 ， 颜 色 表 可 以 设 
置 在 image, pcolor 和 scatter 上 。 通 过 在 cmap 函数 调用 时 传 入 一 个 参数 
来 完成 。 人 参数 接受 一 个 colors.Colormap 的 实例 。 

也 可 以 使 用 matplotlib.pyplot.set_cmap 为 绘制 在 坐标 轴 上 的 最 新 对 象 
设置 cmap。 

通过 matplotlib.pyplot.colormaps 可 以 很 容易 地 得 到 所 有 可 用 的 颜色 
表 。 打 开 IPython， 输 入 以 下 代码 。 

In [1]: import matplotlib.pyplot as plt 





In [2]: plt.colormaps() 
Out[2]: 
['Accent', 
'Accent r', 
'Blues', 


'Blues r', 


'winter', 


素 > 


"winter r'] 
注意 ， 我 们 缩短 了 上 面 的 输出 列表 ， 因 为 它 包含 了 大 约 140 个 元 
会 占用 好 几 页 。 
上 述 代码 将 导入 pyplot 函 数 接口 ， 人 允许 调用 colormaps 函 数 ， 


colormaps 函 数 返 回 一 个 所 有 已 注册 的 颜色 表 的 列表 。 


最 后 ， 我 们 想 向 你 展示 如 何 创 建 一 个 美观 的 颜色 表 。 在 下 面 的 例子 





中 我 们 需要 进行 以 下 操作 。 


值 。 


1. 打 开 ColorBrewer 网 站 ， 得 到 十 六 进 制 格 式 的 diverging 颜 色 表 颜 色 
2. 生 成 随机 样本 x 和 y， 其 中 y 为 所 有 值 的 昧 积 和 【模拟 股票 价格 变 
3. 在 matplotlib 的 散 点 图 函数 上 做 一 些 定 制 化 。 


4. 改 变 散 点 标记 线条 颜色 和 宽度 ， 使 读者 更 容易 理解 。 


import matplotlib as mpl 





import matplotlib.pyplot as plt 
import numpy as np 
# Red Yellow Green divergent colormap 
red_yellow_green = ['#d73027’', '#f46d43', '#fdae61', 
'#fee08b', '#ffffbf', '#d9ef8b', 
'#a6d96a', '#66bd63', '#1a9850'] 
sample_size = 1000 
fig, ax = plt.subplots(1) 
for i in range(9): 
y = np.random.normal(size=sample_size).cumsum() 
x = np.arange(sample_size) 
ax.scatter(x, y, label=str(i), linewidth=0.1, 


edgecolors='grey', 


facecolor-red yellow green[i]) 
ax.legend() 
plt.show() 
上 述 代 码 将 泻 染 出 一 个 漂亮 的 图 表 ， 如 图 7-8 所 示 。 
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从 ColorBrewer 网 站 找到 红 一 黄 一 绿 diverging 颜 色 表 的 颜色 。 然 后 ， 
在 代码 中 列 出 这 些 颜色 ， 并 把 它们 应 用 到 散 点 图 中 。 


ColorBrewer 是 一 个 由 Cynthia Brewer、Mark Harrower 编写 的 Web 


工具 ， 宾 夕 法 尼 亚 州立 大 学 开发 了 其 中 的 颜色 表 。 这 是 一 个 非常 好 用 的 
工具 ， 可 以 选择 不 同 范围 的 颜色 表 并 把 它们 应 用 在 地 图 上 ， 观 察 它 们 的 


不 同 。 这 样 ， 可 以 快速 地 了 解 它 们 显示 在 一 个 图 表 上 的 样子 。 这 个 独特 
的 地 图 地 址 是 http://colorbrewer2.org/index.php?type=diverging& 
scheme=RdYIGn&n=9. 

有 时 候 ， 我 们 不 得 不 在 matplotlib.rcParams 上 做 一 些 定 制 化 ， 这 是 
在 创建 一 个 图 表 或 者 任何 坐标 轴 之 前 要 做 的 第 一 件 事情 。 

例如 ， 为 了 为 大 多 数 matplotlib 函数 设置 默认 的 颜色 表 ， 需 要 改变 
配置 参数 matplotlib. rcParams['axes.cycle_color']. 





7.6.4 补充 说 日 


通过 matplotlib.pyplot.register_cmap ， 可 以 将 一 个 新 的 颜色 表 注 册 
到 matplotlib， 这 样 就 可 以 通过 get_cmap 函 数 找 到 它 。 我 们 可 以 通过 两 种 
不 同 的 方式 使 用 它 ， 两 种 签名 形式 如 下 。 
€ register cmap(name-'swirly', cmap=swirly_cmap) 
€ register cmap(name-'choppy', data=choppydata, lut=128) 
第 一 种 签名 指定 一 个 颜色 表 作 为 colors.Colormap 的 实例 ， 并 通过 
name 参 数 注 册 。 参 数 name 可 以 忽略 ， 在 这 种 情况 下 ， 它 将 继承 cmap 实 
例 提供 的 name 属 性 。 
对 于 第 二 种 签名 ， 我 们 同 线 性 分 隅 的 闫 色 表 构造 函数 传 入 三 个 参 
数 ， 随 后 把 该 闫 色 表 注册 到 matplotlib。 
我 们 可 以 通过 把 name 参 数 传 入 matplotlib.pyplot.get_cmap 闲 数 来 得 
到 相应 的 colors.Colormap 实 例 。 
下 面 的 代码 回 展示 如 何 使 用 matplotlib.colors.LinearSegmented 
Colormap 创 建 你 自己 的 颜色 表 : 
from pylab import * 
cdict = {'red': ((0.0, 0.0, 0.0), 
(0.5, 1.0, 0.7), 





(1.0, 1.0, 1.0)), 
‘green’: ((0.0, 0.0, 0.0), 
(0.5, 1.0, 0.0), 
(1.0, 1.0, 1.0)), 
‘blue’: ((0.0, 0.0, 0.0), 
(0.5, 1.0, 0.0), 
(1.0, 0.5, 1.0))} 
my. cmap = matplotlib.colors.LinearSegmentedColormap(‘my_ 
colormap',cdict,256) 
pcolor(rand(10,10),cmap=my_cmap) 
colorbar() 
执行 该 方法 很 简单 ， 实 际 上 难 的 部 分 是 给 出 信息 丰富 的 颜色 组 合 ， 
这 种 项 色 组 合 不 会 从 我 们 想 要 可 视 化 的 数据 中 丢掉 任何 信息 ， 同 时 让 读 
者 看 起 来 党 心 悦目 。 
对 于 基本 颜色 列表 〈 在 之 前 的 表 中 列 出 的 颜色 表 ) ， 可 以 用 pylab 
快捷 方式 来 设置 颜色 表 。 例 如 : 
imshow(X) 
hot() 
这 将 设置 图 像 X 的 颜色 表 为 cmap = 'hot'. 




















我 们 经 常会 遇 到 散 点 图 ， 因 为 它们 是 可 视 化 两 个 变量 之 间 关 系 时 最 
常用 的 图 表 。 如 果 想 快速 地 查看 两 个 变量 的 数据 ， 并 看 看 它们 之 间 是 否 
有 关系 〈 也 就 是 相关 性 ) ， 我 们 可 以 快速 绘制 一 个 散 点 图 。 对 于 一 个 散 
点 图 ， 必 须 有 一 个 变量 可 以 被 改变 ， 比 如 说 ， 实 验 者 有 系统 地 改变 这 个 
变量 ， 这 样 就 可 以 观察 到 它 对 另 一 个 变量 可 能 产生 的 影响 。 

这 就 是 我 们 在 本 市 中 要 学 习 如 何 理解 散 点 图 的 原因 。 


7.7.1 准备 工作 


例如 ， 我 们 想 看 两 个 事件 是 怎么 相互 影响 的 ， 或 者 它们 是 否 真 的 相 
互 影响 。 这 种 可 视 化 在 大 数据 集合 上 尤其 有 用 ， 因 为 当 只 有 数据 时 ， 我 
们 没有 办 法 通过 奋 看 原生 格式 的 数据 得 到 任何 结论 。 

如 宁 数 值 之 间 存 在 相关 性 ， 这 种 相关 性 可 以 是 正 相 关 或 负 相 关 。 正 
相关 指 在 增 大 X 的 值 时 ，Y 的 值 也 会 增加 。 负 相关 时 增加 X 的 值 ，Y 的 
值 会 减 小 。 在 理想 情况 下 ， 正 相关 是 一 条 从 坐标 轴 的 左下 角 到 右上 角 的 
线段 。 理 想 的 负 相 关 是 一 条 从 坐标 轴 的 左上 角 到 右 下 角 的 线段 。 

两 个 数据 点 之 间 理 想 的 正 相 关 是 值 为 1， 理 想 的 负 相 关 是 值 为 -1。 
所 有 在 此 区 间 内 的 值 表示 两 个 值 之 间 存 在 较 弱 的 相关 性 。 通 常 ， 从 两 个 
变量 的 真正 关联 的 角度 看 ， 在 -0.5 一 0.5 之 间 的 值 被 认为 是 没有 价值 的 。 

一 个 正 相 关 的 例子 是 ， 放 到 慈 普 饶 中 的 钱 的 总 数 直 接 与 看 到 饮 子 的 
人 数 呈正 相关 性 。 一 个 负 相 关 的 例子 是 ， 从 地 点 B 到 地 点 A 所 需要 的 时 
间 ， 取 决 于 地 点 A 与 地 点 B 之 间 的 距离 。 距 离 越 大 ， 完 成 这 段 旅行 所 花 
费 的 时 间 也 越 多 。 

















我 们 这 里 展示 的 正 相 关 的 例子 并 不 完美 ， 因 为 每 次 访问 时 ， 不 同 的 
人 放 的 钱 的 数量 可 能 不 同 。 但 是 一 般 来 讲 ， 我 们 可 以 假定 看 到 锻 子 的 人 
数量 越 多 ， 饶 子 里 的 钱 就 越 多 。 

但 是 ou qu Hm 但 是 它 可 
能 不 是 一 个 直接 相关 。 可 能 个 变量 影响 所 绘制 的 两 个 变量 ， 因 此 
ae eee ee 最 后 ， 相 关 性 也 许 仅 
仅 是 看 上 去 明显 ， 但 是 在 其 背后 并 不 存在 真正 的 关系 。 
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我 们 使 用 的 数据 是 从 Google Trends 门户 网 站 获得 ， 在 那里 可 以 下 
载 到 包含 给 定 参 数 的 相关 搜索 量 的 归 一 化 值 的 CSV 文 件 。 
将 数据 存储 在 ch07 search data.py Python 模块 中 ， 这 样 就 可 以 在 接 
下 来 的 代码 中 导入 它 。 内 容 如 下 。 
# ch07 search data 
# daily search trend for keyword 'flowers' for a year 
DATA =[ 
1.04, 1.04, 1.16, 1.22, 1.46, 2.34, 1.16, 1.12, 1.24, 1.30, 1.44, 
1.22, 1.26, 
1.34, 1.26, 1.40, 1.52, 2.56, 1.36, 1.30, 1.20, 1.12, 1.12, 1.12, 
1.06, 1.06, 
1.00, 1.02, 1.04, 1.02, 1.06, 1.02, 1.04, 0.98, 0.98, 0.98, 1.00, 
1.02, 1.02, 
1.00, 1.02, 0.96, 0.94, 0.94, 0.94, 0.96, 0.86, 0.92, 0.98, 1.08, 
1.04, 0.74, 
0.98, 1.02, 1.02, 1.12, 1.34, 2.02, 1.68, 1.12, 1.38, 1.14, 1.16, 








1.22, 1.10, 
1.14, 1.16, 1.28, 1.44, 2.58, 1.30, 1.20, 1.16, 1.06, 1.06, 1.08, 
1.00, 1.00, 
0.92, 1.00, 1.02, 1.00, 1.06, 1.10, 1.14, 1.08, 1.00, 1.04, 1.10, 
1.06, 1.06, 
1.06, 1.02, 1.04, 0.96, 0.96, 0.96, 0.92, 0.84, 0.88, 0.90, 1.00, 
1.08, 0.80, 
0.90, 0.98, 1.00, 1.10, 1.24, 1.66, 1.94, 1.02, 1.06, 1.08, 1.10, 
1.30, 1.10, 
1.12, 1.20, 1.16, 1.26, 1.42, 2.18, 1.26, 1.06, 1.00, 1.04, 1.00, 
0.98, 0.94, 
0.88, 0.98, 0.96, 0.92, 0.94, 0.96, 0.96, 0.94, 0.90, 0.92, 0.96, 
0.96, 0.96, 
0.98, 0.90, 0.90, 0.88, 0.88, 0.88, 0.90, 0.78, 0.84, 0.86, 0.92, 
1.00, 0.68, 
0.82, 0.90, 0.88, 0.98, 1.08, 1.36, 2.04, 0.98, 0.96, 1.02, 1.20, 
0.98, 1.00, 
1.08, 0.98, 1.02, 1.14, 1.28, 2.04, 1.16, 1.04, 0.96, 0.98, 0.92, 
0.86, 0.88, 
0.82, 0.92, 0.90, 0.86, 0.84, 0.86, 0.90, 0.84, 0.82, 0.82, 0.86, 
0.86, 0.84, 
0.84, 0.82, 0.80, 0.78, 0.78, 0.76, 0.74, 0.68, 0.74, 0.80, 0.80, 
0.90, 0.60, 
0.72, 0.80, 0.82, 0.86, 0.94, 1.24, 1.92, 0.92, 1.12, 0.90, 0.90, 
0.94, 0.90, 
0.90, 0.94, 0.98, 1.08, 1.24, 2.04, 1.04, 0.94, 0.86, 0.86, 0.86, 
0.82, 0.84, 


0.76, 0.80, 0.80, 0.80, 0.78, 0.80, 0.82, 0.76, 0.76, 0.76, 0.76, 
0.78, 0.78, 
0.76, 0.76, 0.72, 0.74, 0.70, 0.68, 0.72, 0.70, 0.64, 0.70, 0.72, 
0.74, 0.64, 
0.62, 0.74, 0.80, 0.82, 0.88, 1.02, 1.66, 0.94, 0.94, 0.96, 1.00, 
1.16, 1.02, 
1.04, 1.06, 1.02, 1.10, 1.22, 1.94, 1.18, 1.12, 1.06, 1.06, 1.04, 
1.02, 0.94, 
0.94, 0.98, 0.96, 0.96, 0.98, 1.00, 0.96, 0.92, 0.90, 0.86, 0.82, 
0.90, 0.84, 
0.84, 0.82, 0.80, 0.80, 0.76, 0.80, 0.82, 0.80, 0.72, 0.72, 0.76, 
0.80, 0.76, 
0.70, 0.74, 0.82, 0.84, 0.88, 0.98, 1.44, 0.96, 0.88, 0.92, 1.08, 
0.90, 0.92, 
0.96, 0.94, 1.04, 1.08, 1.14, 1.66, 1.08, 0.96, 0.90, 0.86, 0.84, 
0.86, 0.82, 
0.84, 0.82, 0.84, 0.84, 0.84, 0.84, 0.82, 0.86, 0.82, 0.82, 0.86, 
0.90, 0.84, 
0.82, 0.78, 0.80, 0.78, 0.74, 0.78, 0.76, 0.76, 0.70, 0.72, 0.76, 
0.72, 0.70, 
0.64] 
我 们 需要 执行 下 面 的 步骤 。 
1. 使 用 一 个 干净 的 数据 集合 ， 该 集合 是 对 关键 字 flowers 在 Google 
Trend 上 一 年 的 搜索 量 ， 把 该 数据 集合 导入 到 变量 qd 中 。 
2. 使 用 一 个 相同 长 度 〈365 个 数据 点 ) 的 随机 正 态 分 布 作 为 Google 
Trend 数据 集合 ， 这 个 集合 为 d1。 
3. 创 建 包含 4 个 子 区 的 图 表 。 





4. 在 第 一 个 子 区 中 ， 绘 币 
5. 在 第 二 个 子 区 中 ， 绘 币 
6. 在 第 三 个 子 区 中 ， 绘 币 
7. 在 第 四 个 子 区 中 ， 绘 币 


— 


d 和 dl 的 散 点 网 。 

d1 和 dl 的 散 点 图 。 

d1 和 反 序 d1 的 散 点 图 。 

dl 和 由 dl 和 d 组 合 而 成 的 数据 集合 的 散 点 


—— 人 一 





下 面 的 代码 演示 了 本 市 中 前 面部 分 解释 的 关系 : 
import matplotlib.pyplot as plt 
import numpy as np 
# import the data 
from ch07_search_data import DATA 
d= DATA 
# Now let's generate random data for the same period 
d1 = np.random.random(365) 
assert len(d) == len(d1) 
fig = plt.figure() 
ax1 = fig.add_subplot(221) 
ax1.scatter(d, d1, alpha=0.5) 
ax1.set_title('No correlation") 
ax1.grid(True) 
ax2 = fig.add_subplot(222) 
ax2.scatter(d1, d1, alpha=0.5) 
ax2.set title("Ideal positive correlation’) 
ax2.grid(True) 
ax3 = fig.add subplot(223) 
ax3.scatter(d1, d1*-1, alpha=0.5) 
ax3.set title("Ideal negative correlation") 


ax3.grid(True) 


ax4 = fig.add_subplot(224) 

ax4.scatter(d1, d1+d, alpha=0.5) 

ax4.set title("Non ideal positive correlation’) 
ax4.grid(True) 

plt.tight_layout() 

plt.show() 

当 执 行 上 面 代码 时 ， 得 到 如 图 7-9 的 输出 。 


. Ideal positive correlation _ 


Non ideal positive correlation 
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7.3 工作 原理 


在 上 面 的 输出 中 ， 我 们 清楚 地 看 到 在 不 同 的 数据 集合 之 间 是 否 存在 
相关 性 。 其 中 ， 第 二 幅 〈 右 上 ) 图 显示 了 一 个 数据 集合 d1 和 dl 自身 〈 显 
然 地 ) 之 间 理 想 的 正 相 关 。 第 四 幅 〈 右 下 ) 图 表明 数据 集合 间 存 在 一 个 
正 相 关 ， 虽 然 不 是 理想 正 相 关 。 我 们 用 d1 和 d 《随机 的 ) 构建 的 这 个 数 
据 集合 来 模拟 两 个 相似 的 信号 〈 事 件 ) 。 在 这 两 幅 图 中 ， 第 二 个 使 用 d 





和 dl 绘制 的 子 区 图 形 中 有 一 定 的 随机 性 (或 者 噪声 ) ， 但 还 是 可 以 和 
原始 (d) 信号 进行 比较 。 


7.7.4 补充 说 日 


我 们 也 可 以 给 散 扣 图 添加 直方 图 ， 通 过 这 种 方式 能 了 解 更 多 所 绘制 
的 数据 的 信息 。 我 们 可 以 添加 水 平 直 方 图 和 和 乒 直 直 方 图 来 显示 在 x 轴 和 Yy 
轴 上 数据 点 的 频率 。 通 过 这 种 方法 ， 可 以 同时 看 到 整个 数据 集合 的 汇总 
言 思 《直方 图 ) 和 每 一 个 数据 点 〈 散 点 图 )。 

下 面 是 一 个 生成 散 点 一 直方 图 组 合 的 代码 示例 ， 使 用 了 在 本 节 中 提 
到 的 两 个 相同 的 数据 集合 。 代 码 的 重点 是 scatterhist() 函 数 ， 我 们 可 以 给 
它 传 入 不 同 的 数据 集合 ， 它 使 用 所 提供 的 数据 集合 对 一 些 变 量 〈 和 直 方 图 
中 bin 的 数量 、 坐 标 轴 的 范围 等 ) 进行 设置 。 

我 们 从 通 第 的 导入 开始 ， 代 码 如 下 。 


import numpy as np 











import matplotlib.pyplot as plt 

from mpl_toolkits.axes_grid1 import make_axes_locatable 

下 面 代码 定义 了 生成 散 点 直方 图 的 函数 ， 给 函数 一 个 a y 数据 

集合 和 一 个 可 选 的 figsize 参 数 。 

def scatterhist(x, y, figsize=(8,8)): 
Create simple scatter & histograms of data x, y inside given plot 
@param figsize: Figure size to create figure 
@type figsize: Tuple of two floats representing size in inches 
@param x: X axis data set 
@type x: np.array 
(param y: Y axis data set 


@type y: np.array 
_, scatter_axes = plt.subplots(figsize=figsize) 

# the scatter plot: 

scatter axes.scatter(x, y, alpha=0.5) 

scatter axes.set aspect(1.) 

divider = make axes locatable(scatter axes) 

axes hist x = divider.append axes(position-"top", sharex=scatter_ 
axes, size=1, pad=0.1) 

axes hist y = divider.append_axes(position="right", 
sharey-scatter axes, 

size-1, pad-0.1) 

# compute bins accordingly 

binwidth = 0.25 

# global max value in both data sets 

xymax - np.max([np.max(np.fabs(x)), np.max(np.fabs(y))]) 

# number of bins 

bincap = int(xymax / binwidth) * binwidth 

bins = np.arange(-bincap, bincap, binwidth) 

nx, binsx, -axes hist x.hist(x, bins-bins, 
histtype-'stepfilled', 

orientation-' vertical") 


ny, binsy, = axes hist y.hist(y, bins=bins, 


histtype-'stepfilled', 
orientation-' horizontal") 
tickstep = 50 


ticksmax = np.max([np.max(nx), np.max(ny)]) 


xyticks = np.arange(0, ticksmax + tickstep, tickstep) 
# hide x and y ticklabels on histograms 
for tl in axes hist x.get xticklabels(): 
tl.set visible(False) 
axes hist x.set yticks(xyticks) 
fortlin axes hist y.get yticklabels(): 
tl.set visible(False) 
axes hist y.set xticks(xyticks) 
plt.show() 
现在 ， 加 载 数据 并 调用 函数 来 生成 并 泻 染 出 想 要 的 图 表 。 


Y 





if name .--' main *£import the data 

from ch07. search. data import DATA as d 

# Now let's generate random data for the same period 
d1 = np.random.random(365) 

assert len(d) == len(d1) 

# try with the random data 

# d = np.random.randn(1000) 

# d1 = np.random.randn(1000) 

scatterhist(d, d1) 


上 述 代 码 将 生成 如 图 7-10 所 示 的 图 表 。 
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如 果 有 从 两 个 不 同 的 观察 结果 得 到 的 两 个 不 同 数据 集合 ， 我 们 想 知 
道 这 两 个 事件 集合 是 否 是 相关 的 。 我 们 想 把 它们 交叉 关联 来 看 其 是 否 以 
某 种 方式 匹配 。 我 们 在 一 个 较 大 的 数据 样本 中 寻找 一 个 较 小 数据 样本 的 
模式 。 这 个 模式 不 必 是 明显 或 者 细微 的 模式 。 


78.1 准备 工作 








我 们 可 以 使 用 pyplot lab 中 matplotlib 的 matplotlib.pyplot.xcorr PK 
数 。 这 个 函数 可 以 绘制 两 个 数据 集合 之 间 的 相互 天 系 ， 通 过 这 种 方式 可 
以 看 出 在 绘制 的 值 之 间 是 否 存 在 某 个 显著 的 模式 。 这 里 假设 传 入 的 x 和 y 
参数 的 长 度 相同 。 

如 果 传 入 的 normed 参 数 为 True， 可 以 通过 0th (也 就 是 说 ， 当 没有 
时 间 延 迟 或 者 时 差 时 ) 延迟 的 互 关 联 对 数据 进行 归 一 化 。 

在 内 部 ， 由 Numpy 的 numpy.correlate 函 数 来 完成 相关 性 计算 。 

通过 参数 usevlines〈 置 为 True) ， 我 们 告诉 matplotlib 用 vlines() 而 不 
是 plotO 绘 制 相 关 图 形 的 线条 。 二 者 的 主要 的 区 别 是 ， 如 果 使 用 plot0， 
可 以 使 用 标准 的 Line2D 属 性 设置 线条 风格 ， 访 属性 通过 **kwargs 参 数 传 
入 matplotlib.pyplot.xcorr 函 数 。 








7.8.2 un +E oR 





在 下 面 的 例子 中 ， 我 们 需要 执行 以 下 步骤 。 
1. 导 入 matplotlib.pyplot 模 块 。 
2. 导 入 numpy 包 。 


3. 使 用 一 个 干净 的 数据 集合 ， 该 集合 是 Google 中 对 关键 字 flowers 一 
年 的 搜索 量 趋势 。 

4. 绘 制 数据 集合 (真实 的 和 仿造 的 ) 和 互相 关 图 表 。 

5. 为 了 标签 和 刻度 有 一 个 较 好 的 显示 效果 使 用 紧凑 布局 。 

6. 为 了 能 更 容易 地 理解 图 表 添加 恰当 的 标签 和 网 格 。 

下 面 代码 将 会 执行 以 上 提 到 的 步骤 。 

import matplotlib.pyplot as plt 

import numpy as np 

# import the data 

from ch07. search. data import DATA as d 

total = sum(d) 

av = total / len(d) 

z = [i -av fori in d] 

# Now let's generate random data for the same period 

d1 = np.random.random(365) 

assert len(d) == len(d1) 

totall = sum(d1) 

av1 = total1 / len(d1) 

zl = [i - av1 for i in d1] 

fig = plt.figure() 

# Search trend volume 

ax1 = fig.add subplot(311) 

ax1.plot(d) 

ax1.set xlabel('Google Trends data for "flowers"") 

# Random: "search trend volume" 

ax2 = fig.add subplot(312) 

ax2.plot(d1) 


ax2.set xlabel('Random data’) 

# Is there a pattern in search trend for this keyword? 

ax3 = fig.add subplot(313) 

ax3.set xlabel('Cross correlation of random data") 

ax3.xcorr(z, z1, usevlines-True, maxlags=None, normed=True, ]w=2) 
ax3.grid(True) 

plt.ylim(-1,1) 

plt.tight_layout() 


plt.show() 
以 上 代码 将 生成 如 图 7-11 所 示 的 图 表 。 








图 7-11 
7.8.3 工作 原理 


我 们 使 用 了 一 个 有 可 识别 模式 (请 参考 上 面 的 图 表 ， 在 数据 集合 上 
两 个 峰值 以 相似 的 方式 重复 ) 的 真实 数据 集合 。 另 一 个 数据 集合 仅仅 是 


一 些 随机 正 态 分 布 的 数据 ， 该 数据 和 从 公共 服务 Google Trends 上 拿 到 
的 真实 数据 有 着 相同 的 长 度 。 

我 们 把 这 两 个 数据 集合 绘制 在 输出 图 表 的 上 半 部 来 对 其 进行 可 视 
化 。 

使 用 matplotlib 的 xcorr 函 数 ， 转 而 调用 NumPy 的 correlate() 函 数 ， 计 
算出 互相 关 并 把 其 绘制 在 图 表 的 下 半 部 。 

NumPy 中 的 互相 关 性 计算 返回 一 个 相关 系数 数组 ， 该 数组 表示 了 两 
个 数据 集合 《或 者 如 果 用 在 信号 处 理 领 域 ， 通 第 指 信号 ) 的 相似 度 。 

互相 关 图 表 ， 或 者 叫 相 关 图 ， 通 过 相关 值 的 高 度 〈 出 现在 某 个 时 间 
延迟 的 竖 线 ) 表现 ， 告 诉 我 们 这 两 个 信号 是 不 相关 的 。 我 们 可 以 看 到 有 
不 止 一 个 竖 线 (在 时 间 延 人 运 n 上 的 相关 系数 ) 在 0.5 之 上 。 

举 个 例子 ， 如 果 两 个 数据 集合 在 100s 的 时 间 延 迟 〈 也 就 是 通过 两 种 
不 同 的 传感器 观察 到 的 相同 对 象 在 相隔 100s 的 两 个 时 间 点 间 的 变化 ) 上 
有 相关 性 ， 则 将 在 上 图 输出 中 x=100 的 位 置 上 看 到 一 个 竖 线 (表示 相关 
系数 ) 。 








7.9 天 的 重要 性 





目 相关 表示 在 一 个 给 定 的 时 间 序 列 或 一 个 连续 的 时 间 间 隔 上 其 目 吴 
的 延迟 〈 也 就 是 时 间 上 的 延迟 ) 版 本 之 间 的 相似 度 。 它 发 生 在 一 个 时 间 
序列 研究 中 ， 指 在 一 个 给 定 的 时 间 周 期 内 的 错误 在 未 来 的 时 间 周 期 上 继 
续 存 在 。 例 如 ， 假 如 我 们 在 预测 股票 红利 的 增长 ， 某 一 年 的 过 高 估计 往 
往 会 导致 对 接 下 来 年 份 的 过 高 信 计 。 

时 间 序 列 分 析 数 据 引 出 了 许多 不 同 的 科学 应 用 和 财务 流程 ， 一 些 例 
子 包括 生成 的 财务 绩效 报表 、 一 段 时 间 的 价格 、 波 动 性 计算 等 。 

如 果 我 们 在 分 析 未 知 数据 ， 自 相关 可 以 帮助 我 们 检测 数据 是 否 是 随 
机 的 。 对 此 我 们 可 以 使 用 相关 图 。 它 可 以 提供 如 下 问题 的 答案 : 数据 是 
随机 的 吗 ? 这 个 时 间 序 列 数据 时 一 个 白 噪 声 信号 吗 ? 它 是 正弦 曲线 形 的 
吗 ? 它 是 目 回归 的 吗 ? 这 个 时 间 序 列 数据 的 模型 是 什么 ? 


7.9.1 准备 工作 





我 们 将 使 用 matplotlib 来 比较 两 组 数据 。 一 组 是 某 个 关键 字 一 年 
(365 K) 的 Google 每 日 趋势 的 搜索 量 。 另 一 组 是 正 态 分 布 的 365 个 随 
机 测量 值 〈“ 生 成 的 随机 数据 ) 。 

我 们 将 分 析 两 个 数据 集合 的 自 相 关 性 ， 并 比较 相关 图 是 如 何 可 视 化 
数据 中 的 模式 的 。 


7.9.2 un He 


本 小 市 将 执行 以 下 步 又 。 
1. 导 入 matplotlib.pyplot 模 块 。 


2. 导 入 numpy 包 。 

3. 使 用 一 个 干净 的 Google 一 年 搜索 量 的 数据 集合 。 
4. 绘 制 数据 和 其 自 相 关 图 表 。 

5. 用 NumPy 生 成 一 个 相同 长 度 的 随机 数据 集合 。 

6. 在 相同 图 表 上 绘制 随机 数据 集合 和 其 目 相 关 图 表 。 
7. 添 加 合适 的 标签 和 网 格 帮助 我 们 理解 图 表 。 

下 面 是 代码 部 分 。 

import matplotlib.pyplot as plt 

import numpy as np 

# import the data 

from ch07. search. data import DATA as d 

total = sum(d) 

av = total / len(d) 

z = [i -av fori in d] 

fig = plt.figure() 

# plt.title'Comparing autocorrelations') 

# Search trend volume 

ax1 = fig.add_subplot(221) 

ax1.plot(d) 

ax1.set_xlabel('Google Trends data for "flowers'") 

# Is there a pattern in search trend for this keyword? 
ax2 = fig.add subplot(222) 

ax2.acorr(z, usevlines=True, maxlags-None, normed- True, lw=2) 
ax2.grid(True) 

ax2.set xlabel('Autocorrelation") 

# Now let's generate random data for the same period 


d1 = np.random.random(365) 


assert len(d) == len(d1) 

total = sum(d1) 

av = total / len(d1) 

z = [i - av fori in d1] 

# Random: "search trend volume" 

ax3 = fig.add_subplot(223) 

ax3.plot(d1) 

ax3.set xlabel('Random data’) 

# Is there a pattern in search trend for this keyword? 
ax4 = fig.add subplot(224) 

ax4.set xlabel('Autocorrelation of random data") 
ax4.acorr( z, usevlines=True, maxlags-None, normed=True, lw=2) 
ax4.grid(True) 

plt.show() 

上 述 代码 将 生成 如 图 7-12 所 示 的 图 表 。 


-0.2 


50 100 300 -400 -300 -200  -100 0 


150 200 250 100 
Google Trends data for "flowers" Autocorrelation 


200 400 79-400 -300 -200  -100 0 100 
Random data Autocorrelation of random data 





图 7-12 
7.9.3 工作 原理 


通过 观察 左手 边 的 图 表 ， 我 们 能 很 容易 地 识别 出 搜索 量 数据 的 模 
式 ; 左下 方 的 图 表 指 正 态 分 布 的 随机 数据 ， 其 模式 不 是 很 明显 ， 但 仍然 
是 可 能 存在 的 。 

在 随机 数据 上 计算 自 相关 性 和 绘制 自 相 关 图 表 ， 可 以 看 到 在 0 处 有 
一 个 很 高 的 相关 性 ， 这 是 我 们 所 期 望 的 ， 数 据 在 没有 任何 时 间 延 迟 的 时 
候 和 自身 是 相关 的 。 但 在 无 时 间 延 迟 之 前 和 之 后 ， 信 号 几乎 为 0。 因 此 
我 们 可 以 安全 地 推 朵 信号 在 初始 时 间 和 任何 观察 的 时 间 延 迟 上 没有 相关 
性 。 

再 看 一 下 真实 的 数据 一 Google 搜索 量 趋势 ， 我 们 可 以 看 到 在 0s 时 
间 延 迟 上 有 相同 的 表现 ， 我 们 也 可 以 预料 对 于 任何 自 相 关 信 和 号 都 会 有 相 
同 的 表现 。 但 是 我 们 看 到 在 0s 时 间 延 迟 之 后 的 大 约 30、60 和 110 天 存在 
很 强 的 信号 。 这 表明 在 Google 搜 索引 擎 上 这 个 特殊 的 搜索 术语 以 及 人 们 
搜索 它 的 方式 间 存 在 一 个 模式 。 

我 们 把 这 个 为 什么 这 里 会 存在 一 个 很 大 的 不 同 的 解释 工作 留 给 读 
者 。 请 记 住 相关 和 因果 关系 是 两 个 非常 不 同 的 概念 。 


7.9.4 补充 说 明 


自 相 关 通 党 应 用 在 当 我 们 想 要 识别 未 知 数据 的 模式 的 时 候 。 当 我 们 
想 把 数据 放 到 一 个 模型 中 时 ， 有 时 候 识 别 我 们 展示 的 数据 集合 的 合适 模 
型 的 第 一 步 是 数据 是 如 何 与 自身 相关 的 。 这 会 需要 Python 以 外 的 知 
识 ， 它 需要 数学 建 模 和 各 种 统计 测试 CLjung-Box 测试 、Box-Pierce 测 试 
SO 的 知识 ， 这 些 知识 能 帮助 我 们 解答 可 能 遇 到 的 任何 问题 。 


























Set 更 多 的 matplotlib 


本 章 中 包含 以 下 内 容 。 

€ 绘制 风 杆 (barbs) 

€ 绘制 箱 线 图 

€ 绘制 甘 特 图 

€ 绘制 误差 条 

€ 使 用 文本 和 字体 属性 

€ FA LaTeX 演 染 文本 

€ 理解 pyplot 和 OO API 的 不 同 


本 章 将 学 习 一 些 matplotlib 包 中 不 常 使 用 的 特性 。 其 中 的 一 些 例子 超 
出 了 matplotlib 最 初 的 目标 ， 但 是 它们 癌 我 们 展示 了 如 何 做 一 些 创 造 性 的 
工作 ， 并 证 明了 matplotlib 是 一 个 功能 全 面 且 一 般 化 的 工具 。 


8.2 22 iji (barbs) 





风 杆 是 风速 和 风向 的 一 种 表现 形式 ， 主 要 由 气象 学 家 使 用 。 理 论 上 
讲 ， 它 们 可 以 被 用 来 可 视 化 任何 类 型 的 二 维 问 量 。 它 们 和 箭头 类 似 ， 但 
不 同 的 是 通过 季 头 的 长 度 表 示 辐 量 的 大 小 ， 而 风 杆 通过 把 直线 或 者 三 角 
形 作为 大 小 增 量 提供 了 更 多 关于 问 量 大 小 的 信息 。 

下 面 解释 风 杆 是 什么 、 如 何 理解 风 杆 ， 以 及 如 何 用 Python 和 
matplotlib 把 它们 可 视 化 出 来 。 如 图 8-1 所 示 是 一 组 典型 的 风 杆 : 

















IF FRPP OF 
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图 8-1 

在 上 图 中 的 三 角形 ， 或 者 称 为 旗 标 ， 代 表 最 大 的 增 量 。 一 个 完整 的 
直线 或 者 风 杆 代表 一 个 较 小 的 增 量 ;， 半 条 直线 表示 最 小 的 增 量 。 

半 直 线 、 直 线 和 三 角形 相应 地 增 量 依 次 为 5、10 和 65。 这 里 的 值 ， 
至 少 对 于 气象 学 家 ， 表 示 节 每 小 时 (knots) 的 风速 。 

我 们 把 风 丁 从 左 同 右 排列 依次 表示 的 大 小 为 : 0、5、10、15、30、 
40、40、50、60 和 100 市 。 这 里 每 一 个 风 杆 的 方 回 是 相同 的 ， 为 从 北 癌 
南 ， 因 为 每 一 个 风 杆 的 东西 风速 为 0。 


8.2.1 准备 工作 




















风 杆 可 以 通过 matplotlib 中 的 matplotlib.pyplot.barbs 函 数 生 成 。 
barbs 子 数 接受 多 种 参数 ， 主 要 应 用 在 通过 指定 X 和 YY 坐标 来 表示 所 


观测 数据 点 的 位 置 。 第 二 对 参数 U、V， 表 示 在 北 一 南 和 东 一 西方 向 上 
以 knots 为 单位 的 向 量 的 大 小 。 
其 他 一 些 有 用 的 参数 有 中 心 点 、 大 小 和 各 种 着 色 参 数 。 





POR ivot) 参数 表示 在 网 格 点 上 显示 的 第 头 的 一 部 分 。 篆 头 可 
以 围绕 中 心 点 旋转 。 篆 头 可 以 围绕 其 尖端 或 者 中 间 旋 转 ， 这 些 值 都 是 有 
效 的 中 心 点 参数 。 

风 杆 由 几 部 分 组 成 ， 因 此 我 们 可 以 设置 任何 一 部 分 的 颜色 。 以 下 是 
几 个 与 设置 颜色 有 关 的 参数 。 


€ barbcolor: 定义 了 风 杆 中 除 旗 标 之 外 的 所 有 部 分 的 颜色 。 

€ flagcolor: 定义 了 风 杆 上 任何 旗 标 的 颜色 。 

* facecolor: 如 果 上 面 两 个 颜色 参数 都 没有 指定 《或 者 使 用 
rcParams 的 默认 值 ) ， 则 使 用 该 参数 。 

如 果 指 定 了 前 两 个 参数 中 的 任何 一 个 ，facecolor 参 数 将 被 履 盖 。 
facecolor 参 数 常 用 于 为 多 边 形 着 色 。 

大 小 参数 (sizes) 指定 了 与 风 杆 长 度 相 关 的 属性 的 大 小 。 这 是 一 个 
系数 的 集合 ， 可 以 通过 以 下 任何 一 个 或 者 所 有 的 关键 字 指 定 。 

€ spacing: 定义 旗 标 / 风 杆 属性 间 的 间距 。 

@ height: 定义 箭 杆 到 旗 标 或 者 风 杆 项 部 的 距离 。 

€ width: 定义 旗 标 的 宽度 。 

€ emptybarb: 定义 用 于 最 小 值 的 圆圈 的 羊 径 。 








8.2.2 un pu 


让 我 们 通过 执行 下 面 的 步 又 来 演示 如 何 使 用 barb 函 数 。 
1. 生 成 一 个 坐标 网 格 来 模拟 观测 点 。 

2. 模 拟 风速 的 观测 值 。 

3. 绘 制 风 杆 图 。 


4. 绘 制 箭头 来 显示 不 同 的 外 观 。 

下 面 是 生成 图 表 的 代码 : 

import matplotlib.pyplot as plt 

import numpy as np 

x = np.linspace(-20, 20, 8) 

y 7 np.linspace( 0, 20, 8) 

# make 2D coordinates 

X, Y = np.meshgrid(x, y) 

U, V = X225, Y-35 

# plot the barbs 

plt.subplot(1,2,1) 

plt.barbs(X, Y, U, V, flagcolor-'green', alpha-0.75) 
plt.grid(True, color='gray') 

# compare that with quiver / arrows 
plt.subplot(1,2,2) 

plt.quiver(X, Y, U, V, facecolor='red', alpha=0.75) 
# misc settings 

plt.grid(True, color='grey') 

plt.show() 

以 上 代码 生成 如 图 8-2 所 示 的 两 个 图 形 。 














8.2.3 工作 原理 


为 了 演示 如 何 用 相同 的 数据 能 呈现 出 不 同 信息 ， 我 们 使 用 matplotlib 
中 的 风 杆 图 和 第 形 图 对 模拟 的 风力 观测 数据 分 别 可 视 化 。 

首先 ， 用 NumPy 生 成 不 同 的 x 和 y 样 本 数组 。 然 后 ， 使 用 NumpPy 的 
meshgrid0 函 数 创 建 出 一 个 2D 坐 标 网 格 ， 我 们 的 观测 数据 是 在 该 网 格 特 
定 坐 标 上 采样 的 。 最 后 ，U 和 V 是 以 knots 为 单位 的 NS《〈 北 一 南 ) 和 
EW〔 东 一 西 ) 方向 的 风速 值 。 为 了 本 节 的 演示 需要 ， 我 们 调整 了 已 有 
的 X 和 Y 和 矩阵 中 的 一 些 值 。 

然后 ， 把 图 表 分 成 两 个 子 区 ， 在 左边 的 区 域 绘 制 风 杆 ， 在 右边 的 区 
域 绘制 箭头 补 片 。 同 时 我 们 轻微 地 调整 了 两 个 子 区 的 颜色 和 透明 度 ， 并 
且 打 开 了 两 个 子 区 的 网 格 显示 。 








8.2.4 4h T WE 


这 在 北半球 完全 没有 问题 ， 因 为 在 那里 风 是 按照 逆 时 针 方向 旋转 
的 ， 并 且 羽 毛 ( 风 杆 的 三 角形 ， 全 直线 和 半 直 线 ) 指 回 低压 的 方向 。 在 
十 半球 ， 情 况 就 题 倒 了 ， 这 时 我 们 的 风力 风 杆 图 就 不 能 正确 地 表现 要 可 
视 化 的 数据 了 。 

我 们 必须 反 转 羽毛 的 方向 。 竺 和 运 的 是 ，barbs 函 数 有 一 个 参数 
flip_barb。 这 个 参数 可 以 是 一 个 单一 的 布尔 值 (True False) ， 或 者 是 
一 个 与 数据 序列 相同 长 度 的 布尔 值 序列 ， 这 时 候 序 列 中 的 每 一 个 元 素 指 
定 了 每 个 风 杆 的 倾斜 方 问 。 











8.3 绘制 箱 线 图 


你 想 在 一 幅 图 表 中 可 视 化 一 系列 测量 (或 观测 ) 数 据 来 显示 这 些 数 
所 的 属性 (如 中 值 、 数 据 扩 散 和 数据 分 布 ) 吗 ?你 想 以 一 种 可 以 直观 地 
比较 几 个 相似 的 数据 系列 的 方式 来 可 视 化 数据 吗 ? 你 会 怎样 可 视 化 它们 
WE? 这 是 该 用 到 箱 线 图 的 时 候 了 ! 如 果 你 在 和 一 个 习惯 了 密集 信息 的 人 
讨论 问题 ， 箱 线 图 很 可 能 是 进行 分 布 比 较 最 合适 不 过 的 图 表 类 型 了 ，。 

从 比较 学 校 间 的 测验 成 绩 ， 到 比较 变化 〈 优 化 ) 前 后 的 流程 参数 ， 
箱 线 图 的 用 途 很 广 。 








8.3.1 准备 工作 


箱 线 图 都 由 哪些 元 系 组 成 ? 正如 我 们 从 图 8-3 中 看 到 的 ， 在 箱 线 图 
中 有 几 个 非常 重要 的 载 有 信息 的 元 素 。 第 一 个 是 箱 体 ， 包 含 从 低 四 分 位 
到 高 四 分 位 的 四 分 位 范围 信息 。 数 据 的 中 值 由 横 罕 箱 体 的 一 条 线段 表 
Ze 








图 8-3 

箱 须 从 数据 的 第 一 个 四 分 位 “25%) 到 最 后 一 个 四 分 位 〈759%) ， 
同 箱 体 的 两 端 延 件 。 换 句 话说 ， 箱 须 从 四 分 位 间 范 围 的 基线 开始 同 外 延 
伸 四 分 位 间距 的 1.5 倍 。 在 正 态 分 布 的 情况 下 ， 箱 须 将 涵盖 总 数据 范围 
的 99.3%。 

如 果 在 箱 须 范围 外 还 有 值 ， 它 们 将 被 显示 为 异常 值 出 。 否 则 ， 箱 须 
将 履 盖 整个 数据 范围 。 

视 情 况 而 定 ， 箱 体 也 可 以 包含 关于 围绕 中 值 的 置信 区 间 信 息 。 这 通 
过 在 箱 体 上 的 一 个 凹 槽 来 表示 。 访 信息 可 以 用 来 指出 两 组 数据 是 否 有 着 
相似 的 分 布 情况 。 然 而 ， 这 并 不 严格 ， 只 是 可 以 被 人 眼 观测 的 一 个 指导 





8.3.2 un 步骤 


在 接 下 来 的 小 节 中 ， 我 们 将 学 习 如 何 用 matplotlib 创 建 箱 线 图 。 我 们 
将 完成 以 下 步 又 。 

1. 采 样 一 定量 的 过 程 数据 ， 其 中 每 一 个 整数 值 代表 在 观测 的 运行 期 
间 错 误 的 发 生 率 。 

2. 把 PROCESSES 字 典 的 数据 读 入 DATA。 

3. 把 PROCESSES 字 典 的 标签 读 入 LABELS 。 

4. 用 matplotlib.pyplot.boxplot 绘 制 箱 线 图 。 

5. 从 图 表 中 去 掉 一 些 图 表 垃圾 信息 (chartjunk) Pl. 

6. 添 加 坐标 轴 标 签 。 

7. 显 示 图 表 。 

下 面 是 实现 这 些 步 又 的 代码 。 

import matplotlib.pyplot as plt 





# define data 

PROCESSES = { 
"A": [12, 15, 23, 24, 30, 31, 33, 36, 50, 73], 
"B": [6, 22, 26, 33, 35, 47, 54, 55, 62, 63], 
"C": [2, 3, 6, 8, 13, 14, 19, 23, 60, 69], 
"D": [1, 22, 36, 37, 45, 47, 48, 51, 52, 69], 
j 

DATA = PROCESSES.values() 

LABELS = PROCESSES.keys() 

plt.boxplot(DATA, notch-False, widths-0.3) 


# set ticklabel to process name 


plt.gca().xaxis.set ticklabels( LABELS) 
# some clean up(removing chartjunk) 
# turn the spine off 
for spine in plt.gca().spines.values(): 

spine.set visible(False) 
# turn all ticks for x-axis off 
plt.gca().xaxis.set ticks position('none") 
# leave left ticks for y-axis on 
plt.gca().yaxis.set ticks position( left") 
# set axes labels 
plt.ylabel(" Errors observed over defined period.") 
plt.xlabel("Process observed over defined period.") 
plt.show() 
上 面 代码 生成 的 图 形 如 图 8-4 所 示 。 
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图 8-4 
8.3.3 工作 原理 


首先 计算 出 给 定数 据 DATA 的 四 分 位 数 ， 然 后 绘制 出 箱 线 图 。 

这 些 四 分 位 数 被 用 来 计算 绘制 箱 体 和 箱 须 所 需 的 线段 。 

我 们 调整 了 图 表 使 其 看 起 来 更 美观 ， 去 挥 了 所 有 不 必要 的 线条 〈 指 
多 余 的 线条 ， 如 “图 表 垃 圾 *， 在 Edward R. Tufte 编写 的 著作 (The 
Visual Display of Quantitative Information 一 书 中 提 到 过 ) 。 这 些 线条 不 
包含 任何 信息 ， 却 为 读者 徒 增 许多 压力 ， 让 他 们 在 发 现 真正 有 价值 的 信 
恩 之 前 花心 思 来 理解 这 些 所 有 的 线条 。 








8.4 绘制 甘 特 





一 种 被 广泛 使 用 的 基于 时 间 数 据 的 可 视 化 方式 是 甘 特 图 。 甘 特 图 由 
机 械 工 程 师 Henry Gantt 在 19 世 纪 10 年 代 发 明 ， 并 以 该 工程 师 的 名 字 命 
名 ， 专 门 用 来 可 视 化 项 目 管理 中 的 工作 分 解 结构 。 甘 特 图 因 具 有 很 强 的 
叙述 性 而 深 受 管理 者 的 喜爱 ， 但 是 却 不 那么 受 雇员 的 喜爱 ， 尤 其 是 当 临 
近 项 目 截止 日 期 的 时 候 。 

因为 甘 特 图 的 使 用 非常 普遍， 即使 我 们 为 它 添加 了 过 多 附加 (相关 
的 和 不 相关 的 ) 信息 ， 每 个 人 也 都 能 够 读 懂 它 。 

基本 的 甘 特 图 在 x 轴 上 有 一 个 时 间 序 列 ， 在 y 轴 上 有 一 些 表示 任务 或 
者 子 任务 的 标签 。 任 务 持续 时 间 通 常 被 可 视 化 为 一 条 线段 或 者 一 个 柱状 
图 表 ， 从 给 定 任务 的 开始 时 间 延 伸 到 其 结束 时 间 。 

如 果 存 在 子 任务 ， 一 个 或 多 个 子 任务 有 一 个 父 任务 ， 在 这 种 情况 
下 ， 任 务 的 总 时 间 是 所 有 子 任务 的 时 间 之 和 ， 在 计算 时 ， 重 膨 时 间 和 间 
陋 时 间 都 算 在 内 。 这 在 执行 关键 路 径 分 析 时 非常 有 用 。 

关键 路 径 分 析 是 一 种 数学 分 析 方 法 ， 它 计算 一 条 包含 所 有 所 需 任 务 
在 内 的 路 径 ， 在 计算 时 考虑 任务 间 的 相互 依赖 ， 这 样 就 可 以 计算 出 项 目 
从 开始 到 完成 的 总 时 间 。 它 在 项 目 管理 中 是 一 个 非常 重要 的 工具 ， 可 以 
被 普 抽 地 应 用 于 任何 类 型 项 目的 时 间 和 资源 计划 中 。 

因此 ， 本 节 将 学 习 如 何 用 Python 创建 甘 特 网 。 


8.4.1 准备 工作 




















有 许多 成 熟 的 软件 应 用 程序 和 服务 可 以 用 来 创建 灵活 且 复 杂 的 甘 特 
图 。 我 们 将 试 着 向 你 展示 如 何在 纯 Python 环 境 中 ， 不 依赖 其 他 外 部 应 用 








程序 的 情况 下 ， 创 建 出 美观 并 且 信 息 丰 富 的 甘 特 图 。 
示例 中 的 甘 特 图 不 文 持 从 套 任务 ， 但 是 它 对 于 描述 简单 的 任务 分 解 
结构 已 经 够 用 了 。 





8.4.2 un zb 





我 们 将 使 用 下 面 的 代码 示例 展示 如 何 使 用 Python 和 matplotlib 绘 制 甘 
特 图 。 执 行 下 面 的 步骤 。 

1. 加 载 包含 任务 的 TEST_DATA， 并 用 TEST_DATA 实 例 化 Gantt 
2 

2. 每 一 个 任务 包含 一 个 标签 ， 及 开始 和 结束 时 间 。 

3. 在 坐标 轴 上 绘制 水 平 条 来 表示 所 有 的 任务 。 

4. 为 泻 染 的 数据 格式 化 x 轴 和 y 轴 。 

5. 让 图 表 布 局 紧凑 些 。 

6. 显 示 甘 特 图 。 

下 面 是 示例 代码 。 


from datetime import datetime 





import sys 
import numpy as np 
import matplotlib.pyplot as plt 
import matplotlib.font_manager as font_manager 
import matplotlib.dates as mdates 
import logging 
class Gantt(object): 
Simple Gantt renderer. 


Uses *matplotlib* rendering capabilities. 


"n 


# Red Yellow Green diverging colormap 

# from http://colorbrewer2.org/ 

RdYIGr = ['#d73027', '#f46d43', '#fdae61', 
'#fee08b', '#ffffbf', '#d9ef8b', 
'#a6d96a', '#66bd63', '#1a9850'] 

POS_START = 1.0 

POS_STEP = 0.5 

def init (self, tasks): 
self. fig = plt.figure() 
self. ax = self. fig.add axes([0.1, 0.1, .75, .5]) 
self.tasks = tasks[::-1] 

def format date(self, date string): 
Formats string representation of *date string* into 
*matplotlib. dates* 


instance. 


try: 
date = datetime.strptime(date_string, '96 Y -96m-96d 
%H:%M:%S') 
except ValueError as err: 
logging.error("String '{0}' can not be converted to 
datetime object: {1}" 
.format(date_string, err)) 
sys.exit(-1) 


mpl_date = mdates.date2num(date) 


return mpl_date 
def plot bars(self): 
Processes each task and adds *barh* to the current *self. ax* 
(*axes*). 
i-0 
for task in self.tasks: 
start = self. format. date(task['start']) 
end = self. format. date(task['end']) 
bottom = (i * Gantt.POS STEP) + Gantt.POS. START 
width = end - start 
self. ax.barh(bottom, width, left=start, height=0.3, 
align-'center', label-task['label'], 
color = Gantt.RdY Gr[i ]) 
i+= 1 
def _configure_yaxis(self): 
"y axis" 
task labels - [t['label'] for t in self.tasks] 
pos = self. positions(len(task labels)) 
ylocs 7 self. ax.set yticks(pos) 
ylabels = self. ax.set yticklabels(task labels) 
plt.setp(ylabels, size='medium') 
def configure xaxis(self): 
"x axis" 
# make x axis date axis 


self. ax.xaxis date() 


# format date to ticks on every 7 days 
rule = mdates.rrulewrapper(mdates.DAIL Y, interval=7) 
loc = mdates.RRuleLocator(rule) 
formatter = mdates.DateFormatter("%d %b") 
self._ax.xaxis.set_major_locator(loc) 
self._ax.xaxis.set_major_formatter(formatter) 
xlabels = self. ax.get xticklabels() 
plt.setp(xlabels, rotation=30, fontsize=9) 
def _configure_figure(self): 
self. configure xaxis() 
self. configure yaxis() 
self. ax.grid(True, color-'gray?) 
self. set legend() 
self. fig.autofmt xdate() 
def set legend(self): 
Tweak font to be small and place *legend* 
in the upper right corner of the figure 
font = font manager.FontProperties(size-'small') 
self. ax.legend(loc-'upper right’, prop=font) 
def positions(self, count): 
For given *count* number of positions, get array for the 
positions. 


"n 


end = count * Gantt.POS STEP + Gantt.POS START 


pos = np.arange(Gantt.POS_START, end, Gantt.POS_STEP) 
return pos 
下 面 的 代码 定义 了 生成 甘 特 图 的 主 函 数 。 在 这 个 函数 中 ， 我 们 把 数 
据 加 载 到 一 个 实例 中 ， 绘 制 出 相应 的 水 平 条 、 设 置 好 时 间 华 标 轴 (x 
HO 的 日 期 格式 ， 并 设置 y 轴 (项 目 任 务 ) 上 的 值 。 
def show(self): 
self. plot bars() 





self. configure figure() 


plt.show() 


Y Y 


if name --' main * 
TEST DATA = ( 
{ label": 'Research', 'start':'2013-10-01 
12:00:00', 'end': 2013-10-02 18:00:00'}, # @IgnorePep8 
{ 'label': 'Compilation’, 'start':'2013-10-02 
09:00:00', 'end': '2013-10-02 12:00:00'}, # (QIgnorePep8 
{ 'label': 'Meeting #1', 'start':'2013-10-03 
12:00:00', 'end': '2013-10-03 18:00:00'}, # @IgnorePep8 
{ 'label': 'Design', 'start':'2013-10-04 
09:00:00’, 'end': '2013-10-10 13:00:00'}, # (QIgnorePep8 
{ 'label': 'Meeting #2', _ 'start':'2013-10-11 
09:00:00', 'end': '2013-10-11 13:00:00'}, # (QIgnorePep8 
{ 'label': 'Implementation’, 'start':'2013-10-12 
09:00:00', 'end': '2013-10-22 13:00:00'}, # (QIgnorePep8 
t 'label': 'Demo', 'start':'2013-10-23 
09:00:00', 'end': '2013-10-23 13:00:00'}, # (QIgnorePep8 
) 
gantt = Gantt(TEST DATA) 


gantt.show() 


代码 将 生成 一 个 简单 美观 的 甘 特 图 ， 如 图 8-5 所 示 。 











8.4.3 工作 原理 


我 们 从 上 面 代码 底部 的 "_ main "中 if 语句 检查 之 后 开始 读 。 在 给 
定 TEST_DATA 参 数 实例 化 Gantt 类 之 后 ， 我 们 为 该 实例 创建 一 些 必 要 
的 字段 。 把 _ TASK_DATABI 保 存在 self.tasks 字 上段 中 ， 并 且 创 建 坐 标 轴 和 
图 形 窗口 来 保存 接 下 来 要 创建 的 图 表 。 

然后 ， 在 实例 上 调用 show(0) 方 法 ， 该 方法 执行 所 需 的 步骤 创建 出 甘 
特 图 。 

def show(self): 

self. plot bars() 








self. configure figure() 
plt.show() 
绘制 水 平 条 需要 一 个 循环 ， 在 循环 中 把 每 一 个 任务 的 名 称 和 持续 时 
间 数 据 应 用 到 matplotlib.pyplot.barh 函数 上 ， 并 把 它 添 加 到 self. ax 坐标 
轴 中 。 通 过 给 每 一 个 任务 一 个 不 同 〈 增 量 ) 的 bottom 参 数值 ， 我 们 可 以 


把 每 个 任务 放 在 一 个 单独 的 通道 上 。 

并 且 ， 为 了 能 容易 地 把 任务 映射 到 它们 的 名 字 上 ， 我 们 对 其 循环 应 
用 colorbrewer2. org 工 具 生成 的 divergent 颜 色 表 。 

下 一 步 是 配置 图 表 ， 即 设置 x 轴 上 的 日 期 格式 和 y 轴 上 的 刻度 位 置 
和 标签 ， 来 与 用 matplotlib.pyplot.barh 消 数 绘制 的 任务 进行 匹配 。 

然后 ， 对 grid 和 legend 做 最 后 的 调整 。 

最 后 ， 调 用 plt.show0O 把 图 表 显 示 出 来 。 








8.5 绘制 误差 条 


误差 条 在 显示 图 表 中 数据 的 离散 度 时 非常 有 用 。 作 为 可 视 化 的 一 种 
形式 ， 它 们 相对 比较 简单 ， 然 而 ， 它 们 也 有 一 些 问题 ， 因 为 在 不 同 的 学 
科 和 出 版 物 中 ， 把 什么 作为 错误 来 显示 是 不 同 的 。 但 这 并 没有 减少 误差 
条 的 有 效 性 ， 只 是 要 求 我 们 加 倍 小 心 ， 并 且 要 明确 地 表述 可 视 化 误差 条 
的 误差 性 质 。 




















8.5.1 准备 工作 








为 了 能 在 裸 观测 数据 上 绘制 误差 条 ， 需 要 计算 所 要 显示 数据 的 平均 
值 和 误差 。 

我 们 计算 的 误差 表示 的 是 从 观测 得 出 数据 的 平均 值 的 95% 置 信 区 
间 。 该 平均 值 是 稳定 的 ， 指 对 整个 总 体 观测 的 良好 估计 。 

matplotlib38i i matplotlib.pyplot.errorbar PK ÁK 3c E V 2S 78 EJ SE 

它 提 供 了 不 同 种 类 的 误差 条 。 误 差 条 可 以 是 竖 直 的 (yerr) 或 者 水 
平 的 〈xerr) ， 对 称 的 或 者 非 对 称 的 。 











8.5.2 un 步骤 


在 下 面 的 代码 中 我 们 将 进行 以 下 操作 。 
1. 使 用 一 些 包含 四 组 观测 值 的 采样 数据 。 
2. 对 每 一 组 观测 值 ， 计 算出 平均 值 。 

3. 对 每 一 组 观测 值 ， 计 算出 95% 置 信 区 间 。 
4. 使 用 竖 直 对 称 的 误差 条 绘制 出 误差 条 图 。 
代码 如 下 。 


import matplotlib.pyplot as plt 

import numpy as np 

import scipy.stats as sc 

TEST DATA = np.array([[1,2,3,2,1,2,3,4,2,3,2,1,2,3,4,4,3,2,3,2,3,2,1], 
[5,6,5,4,5,6,7,7,6,7,7,2,8,7,6,5,5,6,7,7,7,6,5], 
[9,8,7,8,8,7,4,6,6,5,4,3,2,2,2,3,3,4,5,5,5,6,1], 
[3,2,3,2,2,2,2,3,3,3,3,4,4,4,4,5,6,6,7,8,9,8,5], 
]) 

# find mean for each of our observations 

y = np.mean(TEST_DATA, axis=1, dtype=np.float64) 

# and the 95% confidence interval 

ci95 = np.abs(y - 1.96 * sc.sem(TEST_DATA, axis=1)) 

# each set is one try 

tries = np.arange(0, len(y), 1.0) 

# tweak grid and setup labels, limits 

plt.grid(True, alpha=0.5) 

plt.gca().set xlabel('Observation #') 

plt.gca().set ylabel('Mean (+- 95% CI)') 

plt.title("Observations with corresponding 95% CI as error bar.") 

plt.bar(tries, y, align-'center', alpha=0.2) 

plt.errorbar(tries, y, yerr=ci95, fmt=None) 

plt.show() 

上 述 代码 将 生成 之 误差 条 的 图 形 ， 该 图 形 显 示 的 95% 置 信 区 间 为 沿 

y 轴 方 同 延 伸 的 须 线 。 记 住 ， 须 线 越 完 ， 表 示 观 测 的 平均 值 为 真 的 可 能 
性 就 越 低 。 图 8-6 所 示 为 上 述 代码 的 输出 。 


Observations with corresponding 95% Cl as error bar. 
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8.5.3 LFE TE 


为 了 避免 在 每 一 个 观测 数据 集合 上 进行 达 代 ， 我 们 使 用 NumPy 的 向 
量化 方法 来 计算 均值 和 标准 误差 ， 然 后 用 计算 得 出 的 值 绘制 和 计算 误差 
值 。 

NumPy 的 向量 化 实现 是 用 C 语 言 编 写 的 (在 Python 中 被 调用 ) ， 这 
能 让 计算 提速 好 儿 个 数量 级 。 

这 对 于 少量 数据 点 并 不 十 分 重要 ， 但 是 对 于 成 干 上 万 个 数据 点 来 
说 ，NumPy 的 丫 量化 实现 却 能 在 关键 时 刻 帮 我 们 创建 出 啊 应 式 的 应 用 程 
序 。 











此 外 ， 你 可 能 注意 到 ， 我 们 在 np.mean 函 数 调用 中 显 式 地 指定 了 
dtype=np.float64。 按 照 NumPy 官 方 文档 
( http://docs.scipy.org/doc/numpy/reference/generated/ numpy.mean.html ) 
的 解释 ， 如 果 使 用 单 精 度 ，np.mean 可 能 不 准确 ， 最 好 使 用 np.float32 来 
计算 均值 。 如 果 对 于 你 的 机 器 来 说 性 能 不 是 问题 ， 则 使 用 np.float64。 


8.5.4 补充 说 日 





对 于 在 误差 条 上 要 显示 什么 的 讨论 从 未 停息 。 一 些 人 建议 使 用 
SD、2SD、SE ”或 者 95%CI。 我 们 必须 要 明白 这 些 值 之 间 的 区 别 以 及 它 
们 的 用 途 ， 才 能 对 什么 时 候 使 用 哪 种 值 做 出 合理 的 解释 。 

标准 偏差 (Standard Deviation) 描述 的 是 单个 数据 点 围绕 平均 值 的 
分 布 情况 。 如 果 有 一 个 正 态 分 布 ， 那 么 我 们 知道 68.2%【〈 一 2/3) 的 数据 
值 将 落 在 +SD 之 间 ，95.4% 的 值 将 落 在 +2*SD 之 间 。 

标准 误差 (Standard Error) 通过 SD KR N 的 平方 根 CSD/VND it 
算得 出 ， 其 中 ON 为 数据 点 的 数量 。 如 果 我 们 能 够 进行 多 次 相同 的 采样 

《如 进行 上 百 次 相同 的 研究 ) ， 标 准 误差 (SE) 描述 的 是 平均 值 的 变动 
程度 。 

置信 区 间 从 SE 计算 得 出 ， 与 通过 标准 误差 计算 得 出 值 范围 的 方式 类 
似 。 为 了 计算 95% 置 信 区 间 ， 必 须 在 平均 值 上 加 / 减 1.96*SE， 或 者 使 用 
公式 95% Cl=M+(1.96* SE)。 置 信 区 间 越 宽 ， 我 们 的 估计 正确 的 可 能 
性 越 小 。 

我 们 看 到 ， 为 了 确保 我 们 的 估计 是 正确 的 ， 并 且 给 读者 提供 出 证 
据 ， 应 该 把 置信 区 间 显 示 出 来 ， 置 信 区 间 携 珊 了 标准 误差 的 信息 。 如 果 
置信 区 间 很 小 ， 证 明 平 均值 是 稳定 的 。 








8.6 pus 性 





我 们 已 经 学 习 了 如 何 通 过 添加 图 例 来 对 图 表 进行 注解 ， 但 是 有 时 
候 ， 我 们 需要 添加 更 多 的 文本 信息 。 本 节 将 解释 和 演示 matplotlib 中 更 多 
文本 操作 的 特性 ， 为 更 高 级 的 排版 需要 提供 一 个 强大 的 工具 箱 。 

在 本 节 中 我 们 不 介绍 LaTex， 因 为 本 章 有 “用 LaTex 泻 染 文本 ”一 节 对 
其 进行 专门 介绍 。 





8.6.1 准备 工作 


我 们 首先 列 出 matplotlib 提供 的 最 有 用 的 一 系列 函数 。 这 些 函数 中 
的 大 多 数 都 能 在 pyplot 模块 的 接口 中 找到 ， 但 是 我 们 在 这 里 列 出 它们 最 
初 的 函数 。 如 果 某 个 特定 的 文本 特性 在 本 节 没 有 涉及 的 话 ， 你 能 够 借助 
它们 去 了 解 更 多 内 容 。 

表 8-1 显示 的 是 基本 的 文本 操作 ， 以 及 它们 在 matplotlib OO API 中 
对 应 的 函数 。 


表 8-1 
matplotlib.pyplot Matplotlib API fi 述 
在 指定 的 位 置 (x，y ) 为 坐标 轴 添 加 文本 。 
text matplotlib.axes.Axes.text | fontdict 参数 允许 我 们 履 盖 一 般 的 字体 属 
性 ， 或 者 可 以 使 用 kwargs 覆盖 特定 的 属性 
matplotlib.axes.Axes.set | 设置 x 轴 的 标签 。 通 过 labelpad 指定 标 
m siebel 签 和 x 坐标 轴 之 间 的 间隔 











续 表 


matplotlib.pyplot Matplotlib API 描 述 





matplotlib.axes.Axes.set_ l 
ylabel ee Ail xlabel A, MHF y Hh 
ylabe 





matplotlib.axes.Axes.set | 设置 坐标 轴 的 标题 。 接 受 所 有 一 般 的 文本 属 











title 
title 性 ， 如 fontdict 和 kwargs 
matplotlib.figure.Figure. | 为 图 表 添加 一 个 居中 的 标题 。 通 过 kwargs 
suptitle i 
suptitle 接受 所 有 通用 文本 属性 。 使 用 Figure 坐标 
在 图 表 的 任意 位 置 添加 文本 。 位 置 通过 x. 
| matplotlib.figure.Figure. | y 定义 ， 使 用 图 表 的 归 一 化 坐标 。 使 用 
figtext 


text fontdict fW sr TE, (ASCH A 
kwargs 7 s LE fj] SCA H S TE 


在 窗口 或 者 数据 坐标 中 用 于 绘制 和 保存 文本 的 基 类 是 
matplotlib.text.Text 类 。 它 文 持 对 文本 对 象 位 置 进行 设 定 ， 以 及 一 系列 属 
性 的 设置 ， 用 来 调整 图 表 或 窗口 中 字符 串 的 显示 效果 。 

matplotlib.text.Text 实 例文 持 的 字体 属性 如 表 8-2 所 示 。 

表 8-2 























fii o Xx 
1 "a; 


| 'sans-serif', | 指定 字体 名 称 或 字体 类 型 。 如 果 是 一 个 列表 ， 那 么 按 优 
family 'cursive', a 
先 级 顺序 排列 ， 这 样 将 使 用 第 一 个 匹配 的 字体 名 称 


'fantasy', 

'monospace' 

L2, 0x B 

'xx-small', 

' xc-emal. y 

'small', 指定 字体 的 相对 大 小 或 者 绝对 点 数 ， 或 者 指定 字体 的 相 
'medium', 对 大 小 为 一 个 大 小 字符 串 


'large', 


size 或 fontsize 


'x-large', 
'xx-large' 
normar", 
style BÀ fontstyle | 'italic', 指定 字体 风格 为 一 个 字符 串 


'oblique' 





m 性 值 Hi — X 





'normal', 

want an ee 指定 字体 的 变 体形 式 

0-1000 or 

"ultralight', 

"light", 

'normal', 

'regular', 

'book', 

'medium', 指定 字体 粗细 或 者 使 用 一 个 特定 的 粗细 字符 串 。 
'roman', 字体 粗细 定义 为 相对 于 字体 高 度 的 字符 轮廓 厚度 


'semibold', 


weight Bk fontweight 


'demibold', 
'demi', 'bold', 
'heavy', 
'extrabold', 
"black' 
0-1000 or 
"ultra-condensed', 
"extra-condensed', 
'condensed', 
'semi-condensed', | 指定 字体 的 拉 伸 。 拉 伸 定 义 为 水 平 的 压缩 或 者 扩 
'normal', 张 。 该 属性 目前 没有 实现 


'semi-expanded', 


stretch BL fontstretch 


'expanded', 

'extra-expanded', 

'ultra-expanded' 
BRA EHI] matplotlib.font manager. Font 
Properties 实例 。 该 类 存储 并 管理 W3C CSS 
Levell 规范 中 描述 的 字体 属性 。 规 范 网 址 为 
http://www.w3.org/ TR/1998/REC-CSS2- 19980512/ 


我 们 也 可 以 指定 包含 文本 的 背景 框 ， 并 可 以 为 该 背景 框 指定 颜色 、 
边界 和 透明 度 。 


fontproperties 





基本 的 字体 颜色 从 rcParams[textcolor] 中 读 取 ， 当 然 是 如 宁 在 当前 
的 实例 上 没有 指定 字体 颜色 的 前 提 下 。 

指定 的 字体 也 可 以 按照 视觉 的 需要 进行 对 齐 。 对 齐 属 性 如 下 。 

@ horizontalalignment 或 ha: 允许 的 字体 水 平 对 齐 方式 有 center, 
left 和 right。 

@ verticalalignment EX va: 人 允许 的 值 有 center, top. bottom#ll 
baseline。 

* multialignment: 允许 路 多 行 的 文本 字符 串 对 齐 ， 人 允许 的 值 有 
left、right 和 center。 








8.6.2 un pu 





到 目前 一 切 顺 利 ， 但 是 很 难 可 视 化 我 们 能 够 创建 的 字体 的 所 有 变 
体 。 因 此 在 这 里 先 说 明 一 下 我 们 可 以 做 的 事情 。 在 下 面 的 代码 中 我 们 将 
执行 以 下 步骤 。 

1. 列 出 我 们 想 要 改变 的 字体 的 所 有 可 能 的 属性 。 

2. 在 第 一 个 变 体 集合 上 循环 : 字体 类 型 和 大 小 。 

3. 在 第 二 个 变 体 集合 上 循环 : 字体 粗细 和 风格 。 

4. 为 两 个 变 体 泻 染 文 本 示例 ， 并 在 图 表 上 以 文本 的 形式 打印 出 变 体 


组 合 。 
5. 从 图 表 中 去 掉 坐 标 轴 ， 因 为 它们 训 无 用 处 。 
下 面 是 代码 : 


import matplotlib.pyplot as plt 

from matplotlib.font_manager import FontProperties 

# properties: 

families = ['serif', 'sans-serif', 'cursive', ‘fantasy’, 'monospace' | 


sizes = ['xx-small', 'x-small', 'small', 'medium’, ‘large’, 


‘x-large’, 'xx-large'] 
styles = ['normal', ‘italic’, 'oblique'] 
weights = ['light', normal', 'medium', 'semibold', 'bold', 'heavy', 
'black'] 
variants = ['normal', 'small-caps'] 
fig = plt.figure(figsize=(9,17)) 
ax = fig.add_subplot(111) 
ax.set_xlim(0,9) 
ax.set_ylim(0,17) 
# VAR: FAMILY, SIZE 
y=0 
size = sizes[0] 
style = styles[0] 
weight = weights[0] 
variant = variants[0] 
for family in families: 
x =0 
y-yt.5 
for size in sizes: 
yoyr: 
sample = family + " " + size 
ax.text(x, y, sample, family=family, size=size, 
style=style, weight=weight, variant=variant) 
# VAR: STYLE, WEIGHT 
y=0 
family = families[0] 


size = sizes[4] 


variant = variants[0] 
for weight in weights: 
x-5 
yey 
for style in styles: 
ycy 4 
sample = weight + " " + style 
ax.text(x, y, sample, family-family, size-size, 
style=style, weight=weight, variant=variant) 
ax.set_axis_off() 
plt.show() 
上 述 代 码 将 生成 如 图 8-7 所 示 的 截图 。 
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图 8-7 
8.6.3 工作 原理 


代码 非 第 直 白 易 届 ， 因 为 我 们 只 古 在 属性 元 组 上 循环 两 次 就 把 它们 
的 值 打印 了 出 来 。 

这 里 采用 的 唯一 技巧 是 设置 图 表 夯 布 上 字体 的 位 置 ， 因 为 它 让 我 们 
有 了 一 个 布局 民 好 的 文本 示例 ， 并 可 以 很 容易 地 进行 比较 。 

记 住 ，matplotlib 使 用 的 默认 字体 取决 于 你 所 运行 的 操作 系统 ， 因 此 
以 上 鹤 图 可 能 看 起 来 会 稍微 有 所 不 同 。 这 个 截图 是 使 用 标准 Ubuntu 
13.04 预 装 的 字体 渔 染 出 来 的 。 

















8.7 HiLaTeXj&8 Zt VA 


如 果 想 要 绘制 更 多 的 科学 图 形 并 解释 数学 应 用 ， 由 于 它们 会 在 图 表 
中 使 用 科学 符号 和 复杂 的 公式 ， 我 们 需要 对 此 有 更 好 的 支持 。 

虽然 。 matplotlib ”支持 数学 文本 演 染 ， 但 是 对 其 最 佳 的 支持 来 自 
LaTex 社区 ， 并 且 在 实践 中 已 经 得 到 多 年 的 印证 。 

LaTeX 是 一 个 用 于 生成 科学 技术 文档 的 高 质量 的 排版 系统 ， 已 经 是 
事实 上 的 科学 排版 或 出 版 物 的 标准 。 它 是 一 个 免费 的 软件 ， 在 当今 使 用 
的 大 多 数 桌面 系统 上 都 可 以 通过 预 打 包 的 二 进 制 安装 文件 得 到 它 。 因 
此 ， 它 的 安装 非常 简单 。 

LaTeX 的 基本 语法 与 标记 语言 相似 ， 因 此 要 生成 满意 的 内 容 ， 我 们 
需要 集中 在 编写 结构 而 不 是 处 理 外 观 和 风格 上 。 例 如 


\documentclass {article} 

















\title{This here is a title of my document} 

\author{ Peter J. S. Smith} 

\date{September 2013} 

\begin {document} 

\maketitle 
Hello world, from LaTeX! 

\end{ document} 

我 们 看 到 这 与 常用 的 文本 编辑 器 不 同 ， 常 用 的 文本 编辑 器 拥有 一 个 
WYSIWYG 峡 编辑 环境 ， 风 格 已 经 被 应 用 到 了 文本 中 。 这 样 有 时 候 很 
好 ， 但 是 对 于 科学 出 版 物 ， 风 格 是 次 要 考虑 的 问题 ， 主 要 的 关注 点 是 得 
到 恰当 、 正 确 和 有 效 的 内 容 。 这 里 的 内 容 指 的 是 数学 符号 (通常 有 很 
多 ) ， 还 包括 图 形 。 











除 此 之 外 ， 还 有 更 多 地 特性 如 自动 生成 目录 和 索引 ， 这 对 于 大 中 型 
的 出 版 物 是 非常 重要 的 。 这 些 是 LaTeX 系 统 的 主要 关注 点 。 

因为 本 书 不 是 关于 LaTeX 的 书籍 ， 我 们 就 在 此 做 个 快速 的 介绍 。 更 
多 的 文档 可 以 从 其 项 目的 网 站 获得 ， 网 址 为 http://latex-project.org/。 


8.7.1 准备 工作 





在 开始 演示 matplotlib 对 于 使 用 LaTeX 泻 染 文本 的 支持 之 前 ， 需 要 在 
我 们 的 系统 上 安装 以 下 包 。 

€ LaTeX system: 最 常用 的 一 个 是 TeX Live 预 打 包 发 行 版 本 。 

€ DVI to PNG converter: 通过 生成 抗 锯 齿 的 屏 莫 分辩 率 图 像 ， 它 
把 从 TeX 获得 的 DVI 文 件 生成 PNG 图 形 。 

€ Ghost script: 这 是 必需 的 ， 除 非 已 经 通过 TeX Live 发 行 包 安 装 
了 该 包 。 

对 于 不 同 的 操作 系统 有 不 同 的 LaTeX 环 境 的 预 打包 系统 。 对 于 基于 
Linux 的 系统 ，TeX Live 是 一 个 完整 的 TeX 系统 ， 对 于 Mac OS， 推 荐 
的 环境 是 MacTeX 发 行 包 ; 对 于 Windows 环 境 ，proTeX 系 统 将 会 安装 
所 有 的 TeX 文 持 ， 包 括 LaTeX。 

不 管 安装 了 哪个 包 ， 请 确保 它 已 经 包含 字体 库 、 排 版 和 预览 程序 ， 
以 及 不 同 语言 的 TeX 文 档 。 

我 们 将 为 Linxu 系 统 安 装 用 于 Ubuntu 的 textlive 和 dvipng 包 。 可 以 用 下 
面 的 命令 来 安装 。 

$ sudo apt-get install texlive dvipng 

下 一 步 设置 text.usetex 为 True， 告 诉 matplotlib 使 用 LaTeX。 我 们 可 以 
在 自 定 义 的 .matplotlibrc 中 通过 设置 rcParams['text] 来 完成 ， 访 文件 位 于 
用 户主 目录 (在 基于 Unix 的 系统 中 为 home/<user>/.matplotlibrc ， 在 
Windows 系统 下 位 于 C:\Documents and Settings\<user>\. matplotlibrc) ， 





或 者 通过 使 用 以 下 代码 来 实现 : 

matplotlib.pyplot.rc('text', usetex=True) 

代码 的 开始 部 分 将 告诉 matplotiib， 对 于 所 有 的 文本 演 染 使 用 
LaTeX。 在 添加 任何 图 形 和 坐标 轴 之 前 进行 此 设置 是 非常 重要 的 。 

并 不 是 所 有 的 后 端 都 支持 LaTeX 泻 染 ， 只 有 Agg、PS 和 PDF 后 端 支 
持 通 过 LaTeX 演 染 文 本 。 


8.7.2 un pa: 


本 小 节 演 示 一 下 LaTeX 基 本 属性 的 用 法 ， 步 骤 如 下 。 
1. 生 成 一 些 样本 数据 。 

2. 对 于 当前 绘图 session， 设 置 matplotlib 使 用 LaTeX。 
3. 设 置 要 使 用 的 字体 和 字体 属性 。 

4. 写 出 等 式 语法 。 

5. 演 示 希 腊 符 号 语法 的 用 法 。 

6. 绘 制 分 数 和 分 形 的 数学 符号 。 

7. 写 出 一 些 极 限 和 指数 表达 式 。 

8. 写 出 可 能 的 范围 表达 式 。 

9. 写 出 高 文本 和 格式 化 文本 的 表达 式 。 

10. 在 x 轴 和 y 轴 标签 上 写 出 一 些 数 学 表达 式 作 为 图 表 的 标题 。 
下 面 是 执行 这 些 步骤 的 代码 。 

import numpy as np 

import matplotlib.pyplot as plt 

# Example data 

t = np.arange(0.0, 1.0 + 0.01, 0.01) 

s = np.cos(4 * np.pi * t) * np.sin(np.pi*t/4) + 2 


plt.rc('text', usetex- True) 


plt.rc(font',**{'family':'sans-serif','sans-serif':['"Helvetica'], 

'size':16}) 

plt.plot(t, s, alpha=0.25) 

# first, the equation for 's' 

# note the usage of Python's raw strings 

plt.annotate(r'$\cos(4 Nimes \pi Nimes {t}) \times \sin(\pi Ximes \frac{t} 
4) + 2$', xy=(.9,2.2), xytext=(.5, 2.6), color-'red', arrowprops= 

{'arrowstyle':'->'}) 

# some math alphabet 

plt.text(.01, 2.7, r'$\alpha, \beta, \gamma, \Gamma, \pi, \Pi, \phi, \varphi, 
\Phi$') 

# some equation 

plt.text(.01, 2.5, r'some equations $\frac{n! } {k!(n-k)!}={n \choose k}$') 

# more equations 

plt.text(.01, 2.3, rEQ1 $\lim_{x Xo \infty} \exp(-x) = 0$") 

# some ranges... 

plt.text(.01, 2.1, r'Ranges: $( a ), [b], \{ c \}, |d|, Ve V, Mangle f 
\rangle, \lfloor g \rfloor, \Iceil h \rceil$') 

# you can multiply apples and oranges 

plt.text(.01, 1.9, r'Text:$50 apples \times 100 oranges = lots of juice$') 

plt.text(.01, 1.7, r'More text formatting:$50 \textrm{ apples}\times 
100\textbf{ apples} = \textit{lots of juice}$') 

plt.text(.01, 1.5, r'Some indexing: $\beta = (\beta_1,\beta_2,\dotsc, 
\beta_n)$') 

# we can also write on labels 

plt.xlabel(r'\textbf{time} (s)') 

plt.ylabel(r'\textit{y values} (W)') 


# and write titles using LaTeX 

plt.title(r"\TeX\ is Number " 
r'$\displaystyle\sum_{n=1 }\infty\frac{-e/{i\pi}} {24n}$!", 
fontsize=16, color='gray') 

# Make room for the ridiculously large title. 

plt.subplots_adjust(top=0.8) 

plt.savefig('tex demo") 

plt.show() 

上 述 代码 将 演 染 出 如 图 8-8 所 示 的 有 大 量 文本 的 图 表 来 展示 LaTeX 泻 

染 的 效果 。 








Tis 


TEX is Number Y 二 | 
n=l — 


a, Bb, y, T.m, II, ¢,y, ® P, 
cos(4 x 7 x t) x sin(z x 1) + 2/ 
n / 


some equations sy = (7) 


EQ1 limz_ ,= exp(—r) = 0 J^ X 


/ \ 


Ranges: (a), [ë], (c). dl, lef. (Lal. [A] 


i. y AA 
Text: 50apples x 1000ranges = lotsof juice 
bL CRM i A 


£ 
8 
~ 


More text formatting: 50 apples x 100 apples = lots of juice 
\ / 


\ 





在 设置 完 泻 染 引 擎 和 字体 属性 之 后 ， 我 们 基本 上 使 用 了 标准 
matplotlib 函 数 调 用 来 泻 染 文 本 ， 如 matplotlib.pyplot.annotate、 
matplotlib.pyplot.text、matplotlib.pyplot.xlabel 、matplotlib.pyplot.ylabel 和 





matplotlib.pyplot. title。 

不 同 的 是 ， 所 有 的 字符 串 都 是 所 谓 的 原始 字符 串 ， 表 明 Python 不 会 
解释 它们 ， 不 会 及 生字 符 串 人 疹 换 ， 因 此 LaTeX 引 擎 将 接收 到 和 给 定 字 符 
串 完全 相同 的 值 。 

TeX 语 法 以 及 如 何在 matplotlib 中 使 用 该 语法 的 更 多 示例 可 以 从 
matplotlib 官 方 文 档 获 得 ， 网 址 为 
http://matplotlib.org/users/mathtext.html#writing-mathematical- 
expressions. 

注意 ， 这 个 URL 不 是 LaTeX 的 网 址 ， 而 是 matplotlib 上 自身 集成 的 TeX 
分 析 颖 的 网 址 。 这 个 分 析 器 几乎 文 持 和 LaTeX 相 同 的 语法 ， 完 全 能 满足 


你 的 需要 。 


8.7.4 补充 说 日 





如 果 在 设置 环境 时 过 到 问题 ， 或 者 有 字体 方面 的 各 种 问题 ， 比 如 要 
么 看 起 来 很 活 ， 要 么 不 能 得 到 LaTeX 演 染 效 果 ， 请 确保 你 已 经 安装 了 所 
有 所 需 的 包 ，$PATH 环 境 变 量 〈 如 果 在 Windows 系 统 上 ) 已 经 设置 为 包 
含 所 有 所 需 的 二 进 制 包 ， 并 且 已 经 设置 matplotlib 为 使 用 LaTeX 来 做 文本 
fa. 

如 果 按 照 所 有 给 定 的 指令 还 是 不 能 得 到 预期 结果 ， 请 参考 
matplotlib È 77 PX #4http://matplotlib.org/users/usetex.html#possible-hangups 
和 LaTeX 社区 网 站 http://tex.stackex change. com/ 得 到 进一步 的 帮助 。 

众所周知 ， 设 置 不 会 像 预 期 的 那样 一 帆 风 顺 ， 各 种 怪事 都 可 能 发 
生 。 








在 本 节 中 ， 我 们 将 试 着 解释 一 些 matplotlib 中 的 编程 接口 ， 对 pyplot 
和 面向 对 象 的 API “应 用 程序 接口 ) 做 一 个 比较 。 了 解 这些 后 ， 我 们 就 
能 根据 手头 的 任务 来 决定 为 什么 以 及 适合 使 用 哪 种 接口 。 


8.8.1 准备 工作 


开始 时 matplotlib 库 和 许多 开源 项 目 相 似 一 一 对 于 作者 面临 的 问题 没 
有 合适 (人 免费) 的 解决 方案 ， 因 此 作者 写 了 一 个 。MATLAB®@ 耐 临 的 问 
题 体 现在 处 理 手头 工作 的 性 能 

(http://www.aosabook.org/en/matplotlib.html) 。 并 且 原 作者 已 经 具备 了 

MATLAB@ 和 Python 的 知识 ， 因 此 作者 动手 编写 了 matplotlib 作 为 他 当前 
项 目 需求 的 解决 方案 。 

这 就 是 matplotlib 有 一 个 类 MATLAB@ 的 接口 的 主要 原因 。 它 让 人 
们 能 够 快速 地 绘制 数据 ， 而 不 用 担心 后 台 细 节 ， 比 如 matplotlib 当 前 运行 
在 什么 平台 上 ， 确 层 使 用 的 泻 染 库 是 哪个 (是 Linux 下 的 GTK、QT、Tk 
的 ， 或 者 Linux 或 Windows 下 地 wxWidgets) ， 或 者 我 们 是 否 借助 Cocoa 
THEE Mac OS 系统 上 运行 。 所 有 这 些 都 隐藏 在 matplotlib 内 部 ， 在 
其 之 上 是 一 个 matplotlib.pyplot 模块 中 的 恨 好 程序 接口 ， 这 个 有 状态 的 
接口 处 理 创 建 图 表 和 人 举 标 轴 的 逻辑 ， 并 把 它们 与 配置 的 后 端 联系 起 来 。 
它 也 为 当前 图 表 和 坐标 轴 保 存 了 数据 结构 ， 可 以 通过 plot 命 令 进 行 调 
用 。 

matplotlib.pyplot 就 是 我 们 本 书 大 部 分 章节 中 用 到 的 接口 ， 它 简单 、 
直接 ， 能 胜任 我 们 想 要 解决 的 大 多 数 任务 。matplotlib 库 就 是 在 这 种 哲学 











思想 下 设计 出 来 的 。 我 们 必须 能 够 在 画图 时 使 用 尽 可 能 少 的 命令 ， 甚 至 
只 需 一 个 命令 (例如 plt.plot([1,2,3,4, 5]);plt.show()! ) 完成 对 于 这 些 任 
务 ， 我 们 不 想 被 迫 去 思考 关于 对 象 、 实 例 、 方 法 、 属 性 、 演 染 后 端 、 图 
表 、 画 布 、 线 条 和 一 些 其 他 的 图 形 元 素 。 

如 果 你 是 从 开头 阅读 本 书 ， 很 可 能 已 经 注意 到 一 些 类 在 许多 示例 中 
都 出 现 过 比如 FontProperties 或 者 AxesGrid， 此 时 我 们 需要 
matplotlib.pyplot 模 块 提供 的 功能 之 外 更 多 的 功能 。 

面向 对 象 的 编程 接口 实现 了 所 有 隐藏 的 棘手 工作 ， 如 这 染 岁 形 元 
素 ， 把 它们 泻 染 到 平台 的 图 形 工具 上 ， 以 及 人 处理 用 户 的 输入 (鼠标 和 键 
盘点 击 ) 。 没 有 什么 阻止 我 们 使 用 OO API， 而 且 这 也 是 我 们 接 下 来 要 
介绍 的 。 

因此 ， 如 果 把 matplotlib 看 做 一 个 软件 ， 它 由 以 下 三 部 分 组 成 。 

@ matplotlib.pylab 接口 : 这 是 用 户 用 来 创建 类 似 MATLAB@ 中 的 
图 形 的 一 组 函数 。 

€ matplotlib API (也 称 为 matplotlib Rim) : 这 是 用 于 创建 和 管理 
图 表 、 文 本 、 线 条 、 图 形 等 的 一 组 类 。 

€ Jani: 这 些 是 绘图 驱动 ， 它 们 把 前 台 的 抽象 表示 转换 成 一 个 文 
件 或 一 个 显示 设备 。 

后 端 层 包 含 了 抽象 接口 类 的 有 具体 实现 。 包 含 的 类 有 
FigureCanvas 〈 画 到 纸 上 的 一 个 表面 ) 、Renderer《〈 在 男 布 上 绘图 的 画 
=) 和 Event《〈 处 理 用 户 键盘 点 击 和 鼠标 事件 的 类 ) 。 

代码 也 是 分 离 的 。 抽 象 基 类 在 matplotlib.backend_bases 中 ， 每 一 个 
有 具体 实现 在 一 个 单独 的 模块 中 。 例 如 ，GTK 3 后 端 在 
matplotlib.backends.backend gkt3aggl?lrp , 

在 这 个 体系 中 ， 有 一 个 Artist KERA, (RE REY VE ELE 
这 里 完成 的 。Artist 知 道 Renderer 的 存在 以 及 如 何 使 用 它 在 FigureCanvas 














上 绘制 图 像 。 大 多 数 我 们 感 兴趣 的 东西 〈 文 本、 线条 、 刻 度 、 刻 度 标 
签 、 图 像 等 等 ) 都 是 Artist 类 或 者 Artist 类 的 子 类 (位 于 matplotlib.artist 模 
块 ) 。 

matplotlib.artist.Artist 类 包含 了 所 有 其 子 类 共享 的 属性 : 坐标 转化 、 
檀 切 区 、 标 签 、 用 户 事 件 处 理 器 和 可 见 性 ， 结 构 如 图 8-9 所 示 。 
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图 8-9 


在 这 个 图 表 中 ，Artist 是 大 多 数 其 他 类 的 基 类 。 有 两 个 基本 类 别 的 
类 继承 自 Artist。 第 一 类 是 简单 类 型 的 artists， 是 一 些 可 见 的 对 象 如 
Line2D、Rectangle、Circle 和 Text。 第 二 类 是 组 合 的 artists， 是 其 他 
Artists 的 组 合 如 Axis、Tick、Axes 和 Figure。 例 如 ，Figure 有 简单 的 artist 
一 一 Rectangle 作 为 背景 ， 但 还 包含 至 少 一 个 组 合 artist 一 一 Axes。 

大 部 分 绘图 操作 发 生 在 Axes 类 (matplotlib.axes.Axes) ko HIKE 
景 元 素 如 刻度 、 坐 标 轴线 ， 以 及 背景 补 上 的 网 格 和 颜色 都 包含 在 Axes 
中 。Axes 另 一 个 重要 的 特性 是 ， 所 有 的 helper 方 法 创建 其 他 简单 类 型 
artist， 并 把 它们 添加 到 Axes 实 例 中 ， 例 如 plot、hist 和 imshow。 

举 个 例子 ，Axes.hist 创建 了 许多 matplotlib.patch.Rectangle 实例 ， 





并 把 它们 保存 在 Axes.patches 集 合 中 。 
Axes.plot 创 建 一 个 或 多 个 matplotlib.lines.Line2D 实 例 ， 并 把 它们 保 
存在 Axes.lines 集 合 中 。 


8.8.2 un 步骤 


我 们 将 举 个 例子 说 明 一 下 。 
1. 实 例 化 一 个 用 于 自 定义 绘图 的 matplotlib Path 对 象 。 
2. 创 建 对 象 的 顶点 。 
3. 创 建 路 径 的 指令 代码 把 这 些 顶 点 连接 起 来 。 
4. 创 建 一 个 补 片 。 
5. 把 它 添加 到 figure 的 Axes 实 例 中 。 
下 面 是 实现 代码 。 
import matplotlib.pyplot as plt 





from matplotlib.path import Path 
import matplotlib.patches as patches 
# add figure and axes 
fig = plt.figure() 
ax = fig.add_subplot(111) 
coords = [ 

(1., 0.), # start position 

(0., 1.), 

(0., 2.), # left side 

(1., 3.), 

(2., 3.), 

(3., 2.), # top right corner 

(3., 1.), # right side 


(2., 0.)， 
(0., 0.), # ignored 
] 
line_cmds = [Path MOVETO, 
Path. LINETO, 
Path.LINETO, 
Path. LINETO, 
Path.LINETO, 
Path.LINETO, 
Path.LINETO, 
Path.LINETO, 
Path. CLOSEPOLY, 
] 
# construct path 
path = Path(coords, line cmds) 
# construct path patch 
patch = patches.PathPatch(path, lw=1, 
facecolor- 4A1D99B', edgecolor='#31A354') 
# add it to *ax* axes 
ax.add patch(patch) 
ax.text(1.1, 1.4, 'Python', fontsize-24) 
ax.set. xlim(-1, 4) 
ax.set ylim(-1, 4) 
plt.show() 
上 述 代 码 生 成 的 图 形 如 图 8-10 所 示 。 











图 8-10 
8.8.3 工作 原理 


绘制 这 个 八 边 形 ， 我 们 使 用 了 基本 的 补 片 类 matplotlib.path.Path， 它 
包含 了 绘制 线条 和 曲线 的 基 元 的 基本 集合 (moveto 和 lineto)〉 。 这 些 可 
以 被 用 来 绘制 简单 的 多 边 形 ， 也 可 以 使 用 贝 塞 尔 曲线 绘制 更 高 级 的 多 边 
JE . 

首先 ， 我 们 在 数据 坐标 中 指定 了 一 组 坐标 ， 并 为 其 匹配 了 一 组 在 这 
些 坐 标 上 《或 者 项 点， 如 果 你 想 这 么 称呼 的 话 ) 执行 的 路 径 命 令 。 对 此 
我 们 实例 化 了 一 个 matplotlib. path.Path 对 象 。 然 后 ， 用 这 个 path 创建 了 
matplotlib.patched. PathPatch 实例 对 象 一 一 一 个 普通 的 多 重 曲线 路 径 补 





Fe 
现在 ， 可 以 把 这 个 补 片 添加 到 图 表 的 坐标 轴 (fig.axes 集 合 ) 中， 并 
且 可 以 泻 染 图 表 来 把 多 边 形 显示 出 来 。 

在 这 个 例子 中 我 们 不 想 直 接 使 用 matplotlib.figure.Figure 类 来 代 蔡 
matplotlib. pyplot.figure() 调 用 。 这 样 做 的 原因 是 pyplot.figure() 在 后 台 做 
了 很 多 工作 ， 比 如 从 matplotlibrc 文 件 读 取 rc 参数 〈 加 载 默认 figsize、dpi 
MERMERE) ， 设 置 图 表 管理 类 (Gch) 等 。 我 们 可 以 手工 做 所 有 
这 些 工作 ， 但 在 我 们 知道 真正 要 做 什么 之 前 ， 推 荐 的 方式 是 通过 
pyplot.figureO 创 建 图 表 。 

作为 一 般 经 验 法 则 ， 除 非 我 们 用 pyplot 接 口 无 法 完成 菜 项 工作 ， 合 
则 不 应 该 接触 如 Figure、Axes 和 Axis 的 直接 类 ， 因 为 在 后 台 进 行 着 许多 
状态 管理 工作 。 因 此 ， 除 非 我 们 在 开发 matplotlib， 否 则 应 该 避免 打搅 它 
Alle 





8.8.4 4h 7r vi H 





如 果 你 想 进 行 互 动 和 探索 编程 ， 最 好 通过 Python 交互 式 shell 使 用 
matplotlib。 为 此 ， 最 有 名 的 很 可 能 就 是 IPython pylab 模式 了 。 它 在 一 个 
强大 并 且 自 省 的 shell 里 提供 matplotlib 的 所 有 特性 。shell 具有 一 些 丰 富 的 
特性 如 历史 、 内 联 绘 图 ， 如 果 你 使 用 IPython Notebook 的 话 还 可 以 分 享 
你 的 工作 。 

IPython Notebook 是 一 个 基于 Web 的 IPython shell 界面 ， 我 们 可 以 
把 上 面 的 工作 分 享 出 去 ， 或 转换 成 HTML 或 PDF。Matplotlib 图 形 已 经 被 
磐 入 并 内 联 在 里 面 ， 因 此 它们 也 可 以 被 保存 下 来 或 者 分 享 出 去 。 






































